我国自研视频大模型面向全球上线

2024-08-02 | 分类: 科技 | 查看: 67183

　　输入文字描述或上传图片，就能生成一段逼真视频。近日，我国自主研发的通用视频大模型Vidu（www.vidu.studio）面向全球正式上线。据悉，这款视频大模型开放文生视频、图生视频两大核心功能，提供4秒和8秒两种时长选择，分辨率最高达1080P，生成一段4秒的视频片段经实测仅需30秒。

　　图为根据文字描述用Vidu生成的视频画面。（受访者供图）

　　Vidu由清华大学联合北京生数科技有限公司共同研发，于今年4月在2024中关村论坛年会上首次发布。清华大学人工智能研究院副院长、北京生数科技首席科学家朱军介绍，Vidu具有“长时长、高一致性、高动态性”的特点，可根据文字和图片生成高清视频，且能保持高流畅、高动态的画面效果。截至目前，Vidu可支持一次性生成最长32秒的视频。

我国自研视频大模型面向全球上线
图片来源于网络，如有侵权，请联系删除

　　“Vidu能模拟真实物理世界，生成细节复杂且符合物理规律的场景，例如合理的光影效果、细腻的人物表情等，还能创造出具有深度和复杂性的超现实主义内容。”朱军说，对于科幻、西部、浪漫、动画等多类型电影，Vidu能生成符合对应风格的画面片段，还能生成影视级特效画面，如烟雾、炫光等效果。

　　图为根据文字描述用Vidu生成的特效画面。（受访者供图）

　　据介绍，在动态性方面，Vidu可生成复杂动态镜头，支持大幅度、精准的动作生成，能在画面里实现远景、近景、中景、特写等不同镜头的切换，能直接生成长镜头、追焦、转场等效果。

　　记者从北京生数科技有限公司获悉，除文生视频和图生视频的两大基础功能外，为了给用户提供更多样化和个性化的视频创作体验，Vidu还上线“动漫风格”和“角色一致性”两大新功能。在“图生视频”板块中，利用“角色一致性”功能，用户可上传人像图或自定义的角色图，通过文字描述就可指定图中角色在任意场景中做任意动作。该功能简化了视频制作流程，也提升了创作自由度。

我国自研视频大模型面向全球上线
图片来源于网络，如有侵权，请联系删除