该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。
基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,团队在短短两个月里进一步突破了长视频表示与处理的多项关键技术,研发了Vidu视频大模型,显著提升视频的连贯性和动态性。
Vidu的问世,不仅是U-ViT融合架构在大规模视觉任务中的又一次成功验证,也代表了生数科技在多模态原生大模型领域的持续创新能力和领先性。作为通用视觉模型,Vidu能够支持生成更加多样化、更长时长的视频内容,同时面向未来,灵活架构将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。
相关:
天津高院发布知识产权司法保护白皮书 新收案件数连年下降 中新网天津4月26日电 (杨子炀 徐馨迪)“知识产权新收案件数量从2021年的13813件下降至2022年的11521件,再到2023年的7856件,实现‘二连降’。”26日下午,天津市高级人民法院召开新闻发布会,发布《天津法..
如何加强低收入人口动态监测?江西明确6类人群12类救助 中新网南昌4月26日电 (袁汝晶)26日,江西省《关于落实低收入人口动态监测做好分层分类社会救助工作的实施意见》(以下简称《实施意见》)政策解读新闻发布会在江西南昌召开。记者从会上获悉,江西进一步统一了..