刚发布就被对标Sora,这个国产模型来头这么大?

2024-04-30 09:04:31 来源:网络

前几天,世超上网冲浪的时候,刷到了几个 AI 视频片段。

大船驶来的压迫感,被风吹起的发丝和丝巾,太空人直接走进现实菜园。。。一幕幕把我看得是一愣一愣的。

真实度也是一绝,在湖边随着镜头移动,不仅光线跟着变化,连天空、树木的变化都跟咱肉眼看到的没差。

要不是右下角有水印,我还差点以为是 Sora 的视频又上新了。

所以这次的主角不是 Sora ,也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品,而是初出茅庐的国产视频大模型 Vidu

咱看到的那些视频,就是前几天, Vidu 在中关村论坛的人工智能主题日上公布的。

它最长能生成16 秒,一句 “ 木头玩具船在地毯上航行 ” 的提示词,就能生成下面这长长的一段,一镜到底的丝滑程度,怕是路过的谋子导演看了都会点赞。

Sora 号称能真实模拟物理世界的拿手戏, Vidu 照样也能实现。

让它生成一段 “ 汽车加速驶过森林里乡间小路 ” 的视频,像是树林缝隙透过的阳光,后轮扬起的灰尘,都很符合咱们的日常认知。

而且 Vidu 的想象力比咱人还要丰富,画室里的一艘船驶向镜头的场景,它分分钟就能给 “ 拍 ” 出来,看这效果,不知道该有多少动效师瑟瑟发抖了。

甚至在某些提示词下, Vidu 的理解能力比 Sora 还强,比如 “ 镜头绕着电视旋转 ” 的提示词, Sora 压根儿就没 get 到旋转的意思,反而是 Vidu 能轻松理解。

有一说一,在看完 Vidu 的这些视频后,世超是真觉得它是目前市面上,唯一一个能在画面效果上和 Sora 拼一拼的模型。

虽然现在 16 秒的 Vidu 在时长上还比不上 60 秒的 Sora ,但它的进步也确实是肉眼可见的快,据极客公园消息,上个月, Vidu 在内部只能生成 8 秒的视频,上上上个月,还只能生成 4 秒的视频。

反正媒体们都把 Vidu 比作是 “ Sora 级视频大模型 ” ,网友们也都在评论区喊话催他们赶紧开放内测。

不过这里面世超更好奇的是,咱之前压根儿都没听说过 Vidu ,怎么突然平地一声雷,搞出了这么大的阵仗?

我们也顺藤摸瓜找了找资料,发现 Vidu 身上,值得说道的东西还挺多,甚至仔细咂摸下,还能从 Sora 身上找出点 Vidu 的影子来( 世超可没说反 )。

它背后是一家名叫生数科技的公司,别看这个公司才刚满一周岁,但它可是在娘胎里就开始攒劲儿了。因为它的亲妈,是清华系AI 企业瑞莱智慧,背后的研究团队,几乎全是这里面的人。

而在成立生数科技之前,团队就已经把视频大模型研究得很深入了。

尤其是在图像生成这块很火的扩散( Diffusion )模型,他们算是业内第一批研究这个模型的,整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。

正是因为有这么好的底子,早在2022 年 9 月的时候,团队就找到了做 Vidu 的灵感,就是下面这篇论文。

世超让 AI 帮咱解读了下,大概的思路就是,扩散模型在生成图像这块挺强,而大语言模型里用的 Transformer 有个规模( Scale )效应,参数堆得越多,性能就越好。团队就想着,能不能把这两个的优点结合一下,整个融合架构,提升图像生成的质量。

于是他们转头把扩散模型里面的 U-Net 给换成 Transformer ,还起了个名字叫 U-ViT ( Vision Transformers )。结果试下来发现这么一结合还真有用,光是相同大小的 U-ViT ,性能就比 U-Net 强了。

那好嘛,既然这条路走得通,他们也顺势把技术路线定在了 U-ViT 上。

然鹅。。。在团队悄悄酝酿 Vidu 的时候,大洋彼岸的UC 伯克利的一个研究,却让 OpenAI 的 Sora 捷足先登了。

就在清华小分队提交论文的两个月后, UC 伯克利也在预印平台 ArXiv 上提交他们的论文了,一样说要把 Transformers 揉在扩散模型里面,只不过名字起的更直白了点,叫DiT ( Diffusion Transformers )。

看着是不是挺眼熟,没错, OpenAI 的 Sora 模型,用的就是伯克利的 DiT 技术路线。

但因为清华小分队早发了两个月,当年的计算机视觉顶会 CVPR 2023 还以 “ 缺乏创新 ” 的由头,拒了 Sora 的 DiT ,收录了 U-ViT 。

而且早在 2023 年年初的时候,清华小分队还用 U-ViT ,训练出了一个近 10 亿参数量的开源大模型 UniDiffuser 。

算是第一个用行动证明了,融合架构也遵守 Scaling Law 这一套规则,也就是说随着计算量、参数量越来越大,模型的性能就会随指数级上升。而这个 Scaling Law ,同样也是 Sora 这么强的秘密武器。

所以照这么来盘算,Sora 其实还得叫 Vidu 一声祖师爷才对。。。

但现实世界却是, DiT 被 OpenAI 带着一路飞升。

清华小分队呢,计算资源没 OpenAI 那么到位,也没 ChatGPT 这种珠玉在前,总之就是啥啥都不完善,他们只能慢慢来,先做图像、 3D 模型,等有家底儿了,再去做视频。

好在他们身上还是有点实力在的,稳扎稳打慢慢也赶上来了。去年 3 月,清华小分队们成立了生数科技后,就在马不停蹄地搞自家的产品,现在图像生成和 3D 模型生成大伙儿都能免费用了。

并且靠着这两个产品,刚满一周年,它就攒了好几亿的家底。

像是成立 3 个月的时候,就完成了一波近亿级的天使轮投资,上个月,又完成了新一轮的数亿元融资。参与投资的,也都是智谱 AI 、 BV 百度风投等等业内大佬。

反正看这波架势, Vidu 还真有可能成为国内的黑马,去对标 OpenAI 的 Sora 。

不过生数科技那边,倒是觉得只把 Vidu 看作国产版的 Sora ,实在是有点缺乏想象力了,因为他们给 Vidu 的定位,可不仅仅是个视频模型,而是图、文、视频全都要,只不过现在视频暂时是重点。

当然了,好听话谁都会说,能不能搞出来,咱还得实打实地看成品。

世超已经去排了队,等拿到内测资格,再跟大伙儿同步一波。。。

撰文:松鼠 编辑:江江 & 面线 封面:子曰

,刚发布就被对上班族兼职网 标Sora,这个国产模型来头这么大?

相关:

事关最新民调,拜登尴尬了…据美国有线电视新闻网(CNN)4月28日报道,该媒体委托民意调查机构SSRS进行的一项新民调显示,在2024年美国总统大选期间,针对前总统特朗普的刑事审判仍在推进之际,特朗普的民意支持率仍然领先现任总统拜登。另外,根据民调结果,如果特朗普和拜登再次对决,目前的民调结果对特朗普有利。特朗普在美国注册选民中的支持率稳定在49%,与CNN上一次在1月份进行的民调结果相同;而拜登的支持率为43%,1月时是45%。在分别评价两人的总..

俄国防部副部长被捕是对绍伊古集团的巨大打击近日,独立记者安德烈·佩尔采夫在卡内基国际和平基金会网站发文称,国防部副部长伊万诺夫被捕不是一件小事,说明俄罗斯精英的内部斗争在升级,而且越来越不顾及官场规则。现将该文编译如下,仅供参考,文中观点不代表欧亚新观察工作室立场。国防部副部长铁木尔·伊万诺夫在战争期间被捕是俄罗斯政府内部冲突升级的最明显证据。尽管普京总统宣布,面对外部威胁,俄罗斯人民和精英们“团结起来了”,但有影响力团体的互斗却比战前..

日本,勒着脖子也要贬值文 | 新华门的卡夫卡从年初以来,随着Fed加息逐步进入尾声,一个长期的经济现象居然出现了翻转,就是日元汇率持续稳定并作为国际避险货币与日本经济通缩的深度关联,被通胀+日元贬值所翻转。本号作者延观风同志之前曾出文《日本经济高烧,有人却夸太君身体倍儿好》对当时“爆炒日经(日股)、日本通胀大涨=经济繁荣”的热题进行了专门批判。随着日元汇率的大跌,前段时间狂热的日本经济鼓吹者们暂时陷入哑火。当下,日元已经从..

行业内首家!海航空乘将全面取消戴口罩4月29日晚,记者从海南航空方面获悉,自5月6日零时起,海航乘务员将全面取消戴口罩要求。据了解,此举系行业内首家官宣。

海航空乘将全面取消戴口罩4月29日晚,记者从海南航空方面获悉,自5月6日零时起,海航乘务员将全面取消戴口罩要求。据了解,此举系行业内首家官宣。

清华校庆巡游怎么又惹着国人了4月28日,是清华大学113周年校庆的日子,校方照例安排了鼓乐队和花车校内巡游。从昨天下午至今网上对巡游视频的大量评论可以看出,几乎一边倒认为这次巡游质量不高,无论着装、行头,还是气质、精神头,没有体现清华作为中国大学排头兵应有的风采,认为这是应试教育的外在表现。还有许多网友把清华的巡游与我国台湾地区女子高中仪仗队行进表演及日本、韩国学生的类似活动相比。清华的这次巡游是校庆活动的惯例安排。我想起了2021..

司马南领衔主演的《重山之外》票房跨入百万大关大家好,我是老丁。自4月20日登陆院线以来,由“左派”大V司马南领衔主演的电影《重山之外》,在昨天正式跨进了百万票房的大关。根据“猫眼”App披露的信息,截至4月28日晚24时,该片累计票房105.5万元,前一日的累计票房则为94.8万元。说起这105.5万的票房,它们并不是在电影上映的这9天里呈均匀分布的,首日(4月20日)的50.21万贡献了其中的“半壁江山”。紧接着便出现了断崖式的下滑,在4万到7万之间徘徊,4月25日更是跌落到..

齐齐哈尔假冒伪劣种子充斥市场,农业农村部责成当地核查4月29日,总台中国之声独家报道黑龙江齐齐哈尔套牌侵权、假冒伪劣种子充斥市场,未审定的种子也在出售。有种子公司的主业竟然是“租资质”,花10万元就能租一年。报道播出后,农业农村部立即责成黑龙江省赴当地核查,坚决打击违法行为,净化种业市场,维护农民和企业权益。黑龙江省农业农村厅立即启动调查程序,第一时间核实相关情况,并会同有关市县切实履行种子监管职责,深挖彻查、重拳打击假冒侵权种子产业链,坚决防范假劣..

女子骑电动车被多名交警强行拽下,警方通报4月29日,一段“女子闯红灯不接受处罚被交警拽下电动车”的视频在网络上传播,引发网民关注,海口市公安局交通警察支队立即开展核查工作,现将相关情况通报如下此前报道女子喊“我配合”仍被拽下电动车?交警:女子闯红灯劝导6分钟仍不配合(极目新闻)极目新闻记者 邓波4月29日,一段海口市“女子高喊配合后被交警拽下电动车”的视频在网上引发关注。极目新闻记者当天从海口警方获悉,视频中女子骑电动车闯红灯违章,现场警员..

正在进行估值200亿美元的融资?小红书回应小红书否认正在进行估值200亿美元的融资4月29日,有消息称,小红书正在进行新一轮估值200亿美元的融资。消息称,该轮融资实则就是小红书的Pre-IPO轮融资,将为小红书潜在的IPO作一定的定价参考。对此,小红书向记者回应称,该消息为不实信息。今年3月,还曾有消息称,小红书2023年的营收达到37亿美元,增长85%;净利润为5亿美元,首次实现盈利。(每日经济新闻)来源:中企图库