清华系出手,推出全面对标Sora的视频大模型

2024-04-28 08:18:33 来源:网络

作者 | ZeR0

编辑 | 漠影

智东西4月27日报道,在今日举行的2024中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu

根据公开融资信息,成立于去年3月的生数科技,是当前主要国内累计融资额及估值最高的类Sora创企,迄今已完成数亿元融资,投资方包括百度风投智谱AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金

朱军现场展示了Vidu与Pika、Gen-2、Sora等行业现有文生视频大模型的生成视频效果对比。他评价说,Vidu在16秒长期保持和语义理解等方面表现得非常突出。

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

▲使用相同提示词,Vidu与Pika、Gen-2生成视频对比

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

▲使用相同提示词,Vidu与Sora生成视频对比

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

▲Vidu生成视频的部分动图

Vidu能根据文本描述直接生成16秒高质量视频,且生成视频流畅连贯,没有明显的插帧现象。据介绍,这是因为Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,无需经过多个步骤的关键帧生成和插帧处理。

一、一键生成16秒高清视频,Vidu具有5大特色

Vidu支持一键生成长达16秒1080P分辨率的高清视频内容,具备模拟真实物理世界、富有想象力、多镜头语言、高时空一致性、理解中国元素等特色。

1、模拟真实物理世界。能够生成复杂、细节丰富的场景,且符合物理规律,例如合理的光影效果、细腻的人物表情等。

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

▲在输入复杂SUV加速行驶在陡峭土路上的场景描述后,Vidu生成的视频

2、富有想象力。能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

▲Vidu根据提示词“画室里的一艘船驶向镜头”生成的视频

3、多镜头语言。能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

▲Vidu根据提示词“在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩”生成的视频

4、高时空一致性。在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致。

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

▲Vidu根据提示词“这是一只蓝眼睛的橙色猫的肖像,慢慢地旋转,灵感来自维米尔的《戴珍珠耳环的女孩》,画面上带着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光”生成的视频

5、理解中国元素。能够理解、生成特有的中国元素,例如熊猫、龙等。

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

▲Vidu根据提示词“在宁静的湖边,一只熊猫热切地弹着吉他,让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景,以生动的全景镜头捕捉到,将现实主义与大熊猫活泼的精神融为一体,创造出活力与平静的和谐融合”生成的视频

二、快速突破源于多项原创成果,文生视频能力加速成长中

朱军称其快速突破离不开5个要素:算法原理、模型架构、算力资源、数据治理、工程实现

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

他谈道,Vidu的快速突破源于长期积累和多项原创成果,其技术路线与Sora高度一致。2022年9月,其团队在全球首发U-ViT网络架构,这是全球首个Diffusion Transformer架构,这一架构提出3个月后,Sora采用的同源基础架构DiT的论文才发表。

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

受限于算力限制,其团队起初选择做文生图、文生3D这类计算量相对小一些的大模型研发,2023年3月在全球首发并开源基于U-ViT架构的多模态大模型UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换,在架构上比同样DiT架构的Stable Diffusion 3领先了一年。

同年5月,该团队提出文生3D新算法Prolific Dreamer,今年1月发布4D框架Animatable Dreamer并实现可生成4秒视频的文生视频模型。

“Sora出来之后,刺激了我们攻关的速度。”朱军说,团队第一时间紧急启动和攻关,3月将视频时长突破8秒,4月突破16秒,短短两个月实现了长视频表示与处理关键技术的突破,取得了今天的效果,将视频连贯性与动态性显著提升。

射频巨头大秀创新成果:非线性前端射频模块方案、首创20串BMS方案、一体化结构传感器融合方案

结语:推出Vidu大模型合作伙伴计划,共建生态推动视频大模型发展

朱军解释说,Vidu的取名有多重含义,首先字面含义与“Video(视频)”相近,更深层的含义还表达了三个愿景:

一是谐音“We do”,“我们第一时间决定我们应该要做,而且立即去做”;二是谐音“We did”,今天的进展虽然只是迈出一小步,但确实做到在这个方向能够有突破性进展;三是“We do together”,现在的进展还在初步阶段,希望与国内优质单位合作,共同实现技术进步。

大模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合。为此,生数科技正式推出“Vidu大模型合作伙伴计划”,发起合作伙伴申请通道,诚邀产业链上下游的企业和研究机构共同合作,推动视频大模型发展。

,清华系出上瘾小说 手,推出全面对标Sora的视频大模型

相关:

广州白云区龙卷风致5死33伤,现场人员搜救工作已基本完成4月27日15时左右,广州市白云区钟落潭镇出现强龙卷,龙卷影响距离约1公里,极端天气影响钟落潭镇光明、陈洞、金盆、良田4个村。灾情发生后,市区迅速成立救援组、抢修组、善后保障组、秩序维护组等6个工作组,启动应急响应,出动医护、公安、交警、消防、住建等部门和镇村人员,全覆盖开展排查搜救。截至27日22时,现场搜救工作已基本完成。本次灾害造成5人死亡,33人受伤,伤者已第一时间送医院救治。141家厂房受损,无民宅倒塌..

这么敢拍的吗!拍到她一度想从剧组跑路?编辑:何志文这新剧真“生猛”啊!!《微暗之火》当初预告释出时,主打的就是反家暴主题立意,没想到正片这么直给!!开篇直接展现的就是女主角南雅与丈夫徐毅之间剧烈的冲突,在阖家欢乐的千禧之夜,徐毅却对妻子南雅大打出手

好久不见蓝盈莹了?最近变样了?编辑:星辰艺人明星宣传自己家乡的不少,但大家有没有见过带头宣传自己民族节日的?前不久畲族的三月三,蓝盈莹又上热搜了她一身民族服饰,在丽水景宁参加畲族三月三的节目录制。还被网友偶遇了除了录制节目,她还扮成畲家阿妹,直播畲族花车巡游带大家看运动会和工作人员一起吃当地美食就连服装都换了三套,白的黑的还有红的各个社交平台更是连发几条动态这是妥妥的畲族文化推广大使呀不知道是滤镜还是妆造的原因,最近抖音上的..

单霁翔谈20世纪建筑遗产:搭建联通古今桥梁  中新社天津4月27日电 题:单霁翔谈20世纪建筑遗产:搭建联通古今桥梁   作者 王君妍 王在御   “20世纪非常慷慨地为我们留下了大量珍贵的文化遗产,它们搭建了联通古代和未来的桥梁,并使历史的链条不再断裂,这些文化遗产应得到珍视与保护。”中国文物学会会长、故宫博物院学术委员会主任单霁翔27日说。   当天,“公众视野下的20世纪遗产——第九批中国20世纪建筑遗产项目推介暨20世纪建筑遗产活化利用城市更..

千年农耕民俗“开秧门”添新意  中新社贵州从江4月27日电 (周燕玲)27日,在贵州省从江县加榜梯田,随着“开秧门啰!”一声高呼落下,“95后”青年梁仁和跟在村寨寨老身后,在梯田上进行祭秧神等传统仪式,祈求风调雨顺、五谷丰登。 4月27日,村民在贵州省从江县加榜梯田“开秧门”活动上展示祭祀习俗。吴德军 摄   “开秧门”是中国南方传统水稻种植区沿袭千年的农耕习俗,也是一项重要的农事礼仪。位于贵州月亮山腹地的加榜梯田,农耕文化保存完好..

北京市启动超高清视听先锋行动计划  中新社北京4月27日电 (记者 刘育英)在27日举行的2024中关村论坛年会“超高清视听科技创新发展论坛”上,《北京市超高清视听先锋行动计划(2024-2026年)》重磅发布,北京市将全面推进超高清视听全产业链优化升级、提质增效、创新发展。 在2024中关村论坛年会期间,由北京市广电局、北京经济技术开发区管理委员会主办的“超高清视听科技创新发展论坛”于4月27日在北京举行。据悉,本次论坛以“数智赋能 未来视听”为主题..

强龙卷侵袭广州,亲历者:有上百人在医院等着救治据广州天气最新数据,截至4月27日16时,广州国家站(59287)记录到的4月累计雨量为455.8毫米、打破了自1951以来的4月雨量纪录。据中国气象局龙卷风重点开放实验室消息,4月27日下午,广州市白云区钟落潭镇发生龙卷风。4月27日晚,潇湘晨报记者经多方了解,此次龙卷风受灾情况较重的区域有钟落潭镇光明村和陈洞村。有当地网友发布大面积铁皮厂房坍塌的照片,有街上的电线杆被吹倒。潇湘晨报记者多次致电该两村村委会公开电话,截..

车展“唯一车模”爬上车顶!不为维权为哪般?时隔4年,万众期待的北京车展终于开幕了。从体感上来说,这是近年来最忙碌的一届大型国际车展。200多台新车、大大小小不下150场发布会、来自不同国家和地区的参展伙伴们,让所有汽车人都应接不暇。在逛车展的路上,我不止一次听到媒体同行吐槽,赶场赶得连中午饭都没吃;车企的朋友们压力就更大了,穿着正装忙到衣服湿透、连口水都来不及喝都是常事儿。(2万步,根本排不进榜单前10)但要说车展上谁最忙,除了走到哪就把人山人海..

美国共和第一银行倒闭参考消息网4月27日报道 据美联社4月26日报道,美国监管机构关闭了在宾夕法尼亚州、新泽西州和纽约州运营的地区银行共和第一银行。联邦储蓄保险公司26日称,它已接管这家总部设在费城的银行。截至1月31日,该行约有60亿美元资产和40亿美元存款。联邦储蓄保险公司称,总部设在宾夕法尼亚州兰开斯特的富尔顿银行同意承担这家倒闭银行的几乎所有存款并买下其几乎所有资产。共和第一银行的32家分行最早将于27日作为富尔顿银行的分行..

广州遭遇冰雹龙卷风 启动双应急响应  中新社广州4月27日电 (记者 王坚)“下午天突然就黑了”“狂风暴雨,还有拳头大小的冰雹”“龙卷风把路边的铁皮都卷起来了”……广州27日下午突发强对流天气,该市增城朱村市场顶棚被冰雹砸穿,广州市气象灾害(暴雨)Ⅲ级和(雷雨大风)Ⅳ级应急响应于当日15时20分启动。 4月27日下午,广州突发强对流天气。中新社记者 王坚 摄   据统计,截至27日19时30分,广州多区暴雨红色预警信号、雷雨大风红色预警信号仍在生效中..