金谷快报

科技

我国自研视频大模型面向全球上线

2024-08-02 | 分类: 科技 | 查看: 67112

  输入文字描述或上传图片,就能生成一段逼真视频。近日,我国自主研发的通用视频大模型Vidu(www.vidu.studio)面向全球正式上线。据悉,这款视频大模型开放文生视频、图生视频两大核心功能,提供4秒和8秒两种时长选择,分辨率最高达1080P,生成一段4秒的视频片段经实测仅需30秒。

  图为根据文字描述用Vidu生成的视频画面。(受访者供图)

  Vidu由清华大学联合北京生数科技有限公司共同研发,于今年4月在2024中关村论坛年会上首次发布。清华大学人工智能研究院副院长、北京生数科技首席科学家朱军介绍,Vidu具有“长时长、高一致性、高动态性”的特点,可根据文字和图片生成高清视频,且能保持高流畅、高动态的画面效果。截至目前,Vidu可支持一次性生成最长32秒的视频。

我国自研视频大模型面向全球上线
图片来源于网络,如有侵权,请联系删除

  “Vidu能模拟真实物理世界,生成细节复杂且符合物理规律的场景,例如合理的光影效果、细腻的人物表情等,还能创造出具有深度和复杂性的超现实主义内容。”朱军说,对于科幻、西部、浪漫、动画等多类型电影,Vidu能生成符合对应风格的画面片段,还能生成影视级特效画面,如烟雾、炫光等效果。

  图为根据文字描述用Vidu生成的特效画面。(受访者供图)

  据介绍,在动态性方面,Vidu可生成复杂动态镜头,支持大幅度、精准的动作生成,能在画面里实现远景、近景、中景、特写等不同镜头的切换,能直接生成长镜头、追焦、转场等效果。

  记者从北京生数科技有限公司获悉,除文生视频和图生视频的两大基础功能外,为了给用户提供更多样化和个性化的视频创作体验,Vidu还上线“动漫风格”和“角色一致性”两大新功能。在“图生视频”板块中,利用“角色一致性”功能,用户可上传人像图或自定义的角色图,通过文字描述就可指定图中角色在任意场景中做任意动作。该功能简化了视频制作流程,也提升了创作自由度。

我国自研视频大模型面向全球上线
图片来源于网络,如有侵权,请联系删除

  据悉,操作Vidu无需申请,用户直接使用邮箱注册即可上手体验。Vidu的技术突破源于研发团队在机器学习和多模态大模型方面的长期积累,其核心技术架构由团队在2022年就提出并持续开展自主研发。(记者魏梦佳)

【纠错】 【责任编辑:陈听雨】
    阅读下一篇:
      深度观察
      • 新华全媒头条丨世界遗产保护发展的“西湖答卷”
      • 新华解码丨培养高技能人才,职业教育体系如何更好构建?
      • 新华全媒+丨77岁的他,终于摸到了烈士父亲的样子
      • 身边的改革故事丨开放前沿,他在外企见证“徒弟”变“掌门”
      • 两岸关系丨“元宇宙+歌仔戏” 台湾剧团数字化创新传统曲艺
      • 港澳连线丨特写:欢迎回家,奥运冠军江旻憓!
      • 记者手记|欧洲经济“火车头”有点跑不动了
      • 香港寻古之青山禅院
      • 防汛安全知识请收好

              推荐阅读:

              欧美银行业危机演变、影响及启示应对

              华为金融“摸着石头过河”

              iPhone15首销数据不及14,库克三天走访中国三个城市

              供需面难有有效支撑 PVC期货走势延续偏弱运行

              pvc价格最新行情走势 库存消耗幅度仍较有限

              四年来最差财报!特斯拉高估值再遭华尔街质疑

              供应呈高位回落态势 预计PVC震荡运行

              准备送人类去往火星的星舰爆炸,为什么SpaceX团队会一片欢呼?

              瞭望 | 瞭望独家专访九章团队:“九章三号”为什么能这么快?

              章子怡,投出2500亿版图

              关键词: