一句话,让黑神话钟馗开口说话!体验百度蒸汽机2.0的音画同步,口型还能对得上吗?
创始人
2025-08-22 13:40:56
0

智东西AI前瞻(公众号:zhidxcomAI)

作者 | 江宇

编辑 | 漠影

智东西8月21日报道,今日,百度正式发布百度蒸汽机2.0大模型,是全球首个支持中文音视频一体化生成的大模型。在原有图生视频能力基础上,本次新增“有声版”,具备支持环境音效、人声对白及嘴型同步能力,支持画面与声音的同步生成。

蒸汽机2.0具备“形神音容”一体化生成能力,将原本需要分别完成的三个步骤——视频画面、配音效与对白同步,整合为一次生成完成,也被形容为“三步并一步”。

价格方面,蒸汽机Turbo有声版定价为1.4元/5秒,据百度蒸汽机透露,这一价格大约是行业平均成本的七成

一、从“静音图像”到“全声动态”,蒸汽机强化镜头语言与声音整合

相比传统视频生成流程需逐步完成图像、音效、对白等环节,百度此次发布的蒸汽机“有声版”模型尝试将这些过程整合至单一模型内完成。

该模型还引入了更复杂的镜头语言,包括“绕镜”等动态运镜方式,同时配合大规模提示词理解能力的升级,使得用户即便输入较为简短的自然语言,也能生成画面流畅、镜头调度自然的视频内容。

同时,在声音方面,蒸汽机模型不仅同步生成环境声与人声,还尝试做到人物动作与唇形的匹配

该模型支持“多人对话、嘴型对齐、角色情绪同步”等多模态生成任务,背后由“多模态潜在空间规划”机制支持,能在建模阶段统一安排角色身份、语气、对话内容与视觉呈现,使得成片更具整体感与叙事一致性。

此外,百度也强调了中文场景的适配能力,包括中文发音结构的唇形匹配、语境识别与本地化音色模拟,在中文语境下具备更高拟真度。

二、体验:画面风格不同,声音能力初步开放

智东西上手体验了百度蒸汽机2.0视频模型的四个版本,分别对应不同的生成能力侧重。

1、蒸汽机2.0 Turbo(标准基础款):冲浪者与巨浪共舞

这段效果很好,阳光透过海浪的光感很自然,画面层次感强。冲浪者的动作也很顺畅,整体看不太出是AI生成的,挺接近实拍的质感。

2、蒸汽机2.0 Pro(精准响应,画质清晰):海底世界的美丽鱼群

鱼群游动的画面非常逼真,鱼鳃这些细节都保留得不错,海底的珊瑚也非常统一,视觉上挺舒服的。就是偶尔几帧里,鱼尾有点失真。

3、蒸汽机2.0 Lite(创意简单表达,极速生成):雨夜霓虹,城市漫步

前景的行人走路还算自然,但背景里有些人动作有点僵硬,甚至还有“瞬间消失”的Bug。不过雨夜氛围保留得不错,水塘里的雨滴、霓虹倒影这些细节挺到位的,整体画面观感还行。

4、蒸汽机2.0 有声版(支持音效生成):钟馗出场

本次体验首帧图选用了游戏科学最新发布的《黑神话·钟馗》预告片中的一幕。智东西尝试了三个不同提示词的生成结果,人物形象没问题,老虎的形象也挺还原,背景音效基本跟提示词能对上。

比较有意思的是,起初的两次尝试,“怒吼”这个关键词在两段视频中被模型理解成了不同的主体:一段是钟馗怒吼,一段则是老虎发声。而提示词中提到的“倒吸凉气”声效未响应,不过背景音的氛围感呈现尚可。

在第三次调整提示词后,钟馗的台词得到了较准确的还原,音色、语气与人物形象较为契合,嘴型同步效果也很清晰,声音生成与画面衔接更为自然。

提示词1:需背景音。主体(虎背上的钟馗)低头静止,缓慢抬头,抬头瞬间,背后有两三人传出倒吸凉气的害怕声。同时,坐骑老虎有一声怒吼。场景为山林、低雾、阴雨天气,整体氛围压抑、肃杀。

提示词2:需背景音。主体低头静止,缓慢抬头,抬头瞬间,背后有两三人传出倒吸凉气的害怕声。同时,坐骑老虎有一声怒吼。场景为山林、低雾、阴雨天气,整体氛围压抑、肃杀。

提示词3:需背景音。主体为骑在虎背上的钟馗,初始低头静止,随后缓慢抬头。在抬头至目视前方的瞬间,钟馗开口喊道:“罚恶司——钟馗!”声音洪亮、有气势。阴雨天气,氛围压抑肃杀。

结语:一体化生成已站稳,表现仍需持续打磨

百度此次将“画面、音效、对白”打包生成,仍具一定标志性。相比早期“静音片段+后期配音”的做法,如今一体化生成的路径的确更省力也更直观。

但从当前体验来看,声音生成的准确性与口型协调仍存在一定差距,尤其在多角色对话、强调动作与台词同步的场景下,模型的时序控制还未完全成熟。不过,整体上百度蒸汽机在“形神音容”一体化生成方向上,迈出了可见的一步。

相关内容

热门资讯

天合光能:已在太空光伏领域完成... 1月16日,天合光能在机构调研纪要中披露,作为拥有光伏科学与技术全国重点实验室的行业龙头,公司已在太...
铭一优自动化取得高效极片叠片机... 国家知识产权局信息显示,东莞市铭一优自动化设备有限公司取得一项名为“一种高效极片叠片机构”的专利,授...
上纬新材:组建具身智能机器人研... 来源:证券时报e公司 人民财讯1月16日电,上纬新材(688585)1月16日回复监管问询函称,近期...
海光信息申请时钟管理结构专利,... 国家知识产权局信息显示,海光信息技术(苏州)有限公司申请一项名为“时钟管理结构、片上系统和电子设备”...
彩银建材取得便于安装的铝蜂窝板... 国家知识产权局信息显示,广东彩银建材有限公司取得一项名为“一种便于安装的铝蜂窝板”的专利,授权公告号...
包头市中心医院东院区血液净化中... 在生命的漫漫征途中,疾病常常如突如其来的风暴,将人们卷入黑暗与迷茫。总有一束温暖而坚定的光,穿透黑暗...
推广智能学伴+智能教师,江苏全... (来源:荔枝新闻) 转自:荔枝新闻 日前,江苏省政府印发《江苏省“人工智能+”行动方案》(以下简称《...
我市积极培塑新质生产力构筑工业... 研发突破。持续加大研发投入,新地佩尔阀门突破 5 大技术,实现油气管道关键设备国产化,产品成功应用于...
原创 强... 老牌制造大国,“制造神话”在悄然褪色。 1月份,有机构报道,2025年德国企业申请破产数量升至20年...
苹果首款AI眼镜计划于二季度亮... 2026年1月16日,电厂从智能眼镜供应链人士处获悉,苹果的AI眼镜计划在今年推出,初步时间预计为今...