AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
创始人
2025-11-11 16:00:41
0

最近,视频生成领域的基石模型正展现出作为潜在“世界模型”模拟物理世界的惊人能力。然而,当这些技术被应用于像外科手术这样高风险、需要深度专业因果知识而非普适物理规则的领域时,其表现如何?这是一个至关重要但尚未被探索的领域。

为了系统地应对这一挑战,来自耶鲁大学、诺丁汉大学等机构的研究者们进行了一项开创性的研究。他们提出了 SurgVeo,这是首个由专家策划的、用于评估手术视频生成模型的基准;同时,他们还设计了一个新颖的四层评估框架——手术合理性金字塔(Surgical Plausibility Pyramid, SPP),旨在从基本外观到复杂手术策略等多个层面评估模型生成内容的质量。

  • 论文标题: How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

  • 中文标题::外科医生离手术世界模型还有多远?基于专家评估的零样本手术视频生成研究

  • 作者: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding,Nassir Navab, Jiebo Luo

  • 机构: 耶鲁大学,诺丁汉大学,中国科学院,山西医科大学,山东大学,慕尼黑工业大学,罗切斯特大学

  • 论文地址: https://arxiv.org/pdf/2511.01775

  • Benchmark(待开源): https://github.com/franciszchen/SurgVeo

当前挑战:通用世界模型难以驾驭专业领域

“世界模型”的核心思想是让机器建立一个关于世界如何运作的内部表征,理解环境如何演变、行为如何导致后果。近期的视频生成模型,如谷歌的Veo,已经能够生成非常逼真的通用场景视频,似乎让我们离通用物理世界的模拟器越来越近。

然而,外科手术领域与日常物理世界有着本质的不同。它不仅仅是关于物体如何移动或碰撞,而是充满了需要“专家直觉”的知识,比如解剖学、生理学和生物力学。一个成功的“手术世界模型”必须理解手术刀切开不同组织时会发生什么,理解特定操作背后的战略意图。将为模拟“常识物理”而生的模型直接应用于手术这样需要“专家知识”的领域,其能力边界在哪里?这正是本研究试图回答的核心问题。

研究方法:SurgVeo基准与SPP评估框架

为了科学地衡量现有视频生成模型在手术领域的真实能力,研究者构建了一套完整的评测流程。

首先,他们创建了 SurgVeo基准。该基准包含了两种具有代表性但风格迥异的手术视频:腹腔镜子宫切除术和内窥镜垂体手术。前者代表了在密闭空间内的软组织操作,后者则要求在关键神经血管结构附近进行极其精细的操作。研究者从这些真实手术录像中提取视频片段,形成“起始帧-后续真实视频”的数据对。

接着,他们让先进的 Veo-3模型执行一项零样本(zero-shot)预测任务:给定手术场景的起始帧和一段文本提示(prompt),模型需要生成接下来8秒的手术视频。

最关键的一步,是由四位具有执业资格的外科医生组成的专家小组,使用研究者提出的 手术合理性金字塔(SPP)框架来对生成的视频进行打分。SPP框架将评估分为四个层级,从下到上,要求越来越高:

  1. 视觉感知合理性 (Visual Perceptual Plausibility):评估视频最基本的外观质量,如清晰度、光照、组织纹理和视频流畅度。

  2. 器械操作合理性 (Instrument Operation Plausibility):评估手术器械的运动轨迹、操作技术是否符合物理规律和手术规范。

  3. 环境反馈合理性 (Environment Feedback Plausibility):评估手术场景(如组织、器官)对器械操作的反应是否真实,例如,组织被牵拉后的变形、切割后的出血模式是否符合生物力学和解剖学原理。

  4. 手术意图合理性 (Surgical Intent Plausibility):评估预测的系列动作是否展现出清晰、逻辑自洽且符合当前手术阶段的战略目标。这是最高层次的评估,考验模型是否理解“为什么”要这么做。

专家们会在生成的视频播放到第1秒、第3秒和第8秒时,参照真实视频,对这四个维度进行1-5分的打分。

实验结果:惊人的“合理性差距”

研究结果揭示了一个深刻的断层,研究者称之为“合理性差距”(plausibility gap):尽管Veo-3在生成视觉上令人信服的手术场景方面表现出色,但在SPP框架的更高层级上却严重失败。

量化数据分析

下方的两个表格分别展示了在腹腔镜手术和神经外科手术中,不同提示策略下,模型在三个时间点的得分情况。

腹腔镜手术评估分数

神经外科手术评估分数

我们可以清晰地看到:

  • 视觉质量高:在两个手术类别中,“视觉感知合理性”的初始得分都很高(例如,基线提示下腹腔镜手术为3.72分,神经外科为3.88分)。外科医生评价生成的图像“清晰得惊人”。

  • 高层逻辑差:然而,分数在SPP金字塔的更高层级急剧下降。器械操作、环境反馈和手术意图的得分要低得多,并且随着时间的推移(从1秒到8秒)迅速恶化。例如,在腹腔镜手术中,环境反馈合理性得分从1秒时的3.06分骤降至8秒时的1.64分。

腹腔镜手术评估分数的小提琴图

神经外科手术评估分数的小提琴图

小提琴图更直观地展示了这种差异。视觉感知的得分(最左侧)密集分布在高分区域,而其他三个维度的得分则大量堆积在低分区域,且随着时间推移(颜色由浅到深)不断下移。

有趣的是,研究还发现,为模型提供更明确的“阶段感知”提示(例如,明确告知当前是“血管结扎”阶段)并不能显著改善其表现。这有力地证明,模型的问题不在于缺少上下文信息,而在于根本无法理解和运用这些专业的领域知识

典型失败案例

定性的案例分析让这些冰冷的数字变得更加触目惊心。

上图展示了一些典型的失败案例:

  • (a) 视觉质量失真:生成的视频画面亮度发生突兀且不自然的变化,与稳定的手术照明条件不符。

  • (b) 器械错误:模型“幻觉”出了一种现实中不存在的手术器械。

  • (c) 操作不当:真实操作需要向左移动,模型却生成了向右的错误动作。模型展示的器械在处理黏液,而正确的手术操作应是在另一目标部位上进行冲洗与吸引的协同动作。

  • (d) 不当手术目标:模型展示的器械在处理黏液,而正确的手术操作应是在另一目标部位上进行冲洗与吸引的协同动作。

  • (e) 环境反馈错误:模型违反物理定律,让吸引器像提拉固体一样将一整块明胶海绵吸走,而不是吸走表面的液体。

  • (f) 意图错误:真实意图是在硬脑膜上注射生物胶水,模型却错误地预测了一个完全不相关的动作——用棉片擦拭。

错误类型的量化分布(上图)进一步证实了“合理性差距”。在两种手术中,与高层手术逻辑相关的错误(如手术意图、器械操作错误)占了绝大多数,而底层的视觉质量问题仅占一小部分(腹腔镜6.2%,神外2.8%)。

当然,模型偶尔也能生成一些高分案例,但这些通常是手术动作简单、甚至是暂停的场景。

高分案例:(a)中生成了自然的解剖动作,(b)中则几乎完美复刻了手术暂停的场景。

研究意义与未来展望

这项研究首次提供了量化证据,揭示了当前最先进的视频生成模型在手术AI领域中,令人信服的视觉模仿与真正的因果理解之间存在巨大鸿沟

CV君认为,这项工作意义重大。它告诉我们,仅仅依靠在通用数据上进行大规模训练,可能不足以让模型掌握专家领域的复杂规则。未来的“手术世界模型”可能需要新的架构范式,能够整合结构化的领域知识,并在生成过程中强制执行严格的物理和逻辑约束。

SurgVeo基准和SPP评估框架为未来的研究奠定了一个至关重要的基础和路线图,指引着我们如何开发能够驾驭真实世界医疗领域复杂性的下一代模型。虽然通往真正的手术世界模型道阻且长,但这项研究无疑是迈出的清醒而关键的一步。

相关内容

热门资讯

物理学陷入停滞——进步主义神话... 当今的物理学家需要抛弃那个极具吸引力的神话——他们正在揭示我们宇宙的隐藏现实。 浏览物理学科普书籍...
从“数字化”到“数智化”(观象... 从“数字化”到“数智化”,一字之变,体现出我国牢牢把握人工智能机遇,体系化推进人工智能产业创新和赋能...
10万次Claude真实对话洞... IT之家 11 月 26 日消息,Anthropic 昨日(11 月 25 日)发布研究报告,通过分...
AI技术应用越广泛,越要明确边... 发展科技的初心和落点都是服务于人,服务于国家和社会。让安全和便捷成为AI技术应用的一体两面,成为技术...
【多彩新论】警惕碎片化传播的负... 注意力不集中,看书听讲说话容易走神,刷手机却停不下来……数字时代的碎片化传播,已成为我们获取资讯的主...
原创 1... 神舟二十二飞船成功发射,代号“天宫应急1号”,并且也圆满完成了中国空间站任务对接,整个任务全面成功了...
工信部:启动为期两年的卫星物联... C114讯 11月26日消息(颜翊)昨日,工业和信息化部正式印发《关于组织开展卫星物联网业务商用试验...
华为Mate80全系降价背后 华为需要通过更亲民的定价,来从iPhone手上抢更多的市场份额。 文|游勇 编|石兆 作为华为旗下最...
亚洲第一!我国自主研制,海试成... ◎ 科技日报记者 都芃 25日,记者从中交天津航道局有限公司获悉,当天下午,新一代超大型耙吸挖泥船“...
一加总裁:第五代骁龙8由一加高... 【CNMO科技消息】11月26日,一加中国区总裁李杰在社交平台透露,已受邀出席当天下午举行的高通“第...