Rubber Duck功能缩小Claude Sonnet与Opus性能差距74.7%
创始人
2026-04-08 12:07:29
0

IT之家 4 月 8 日消息,微软 GitHub 官方于 4 月 6 日发布博文,宣布为其 Copilot CLI 推出实验性功能 Rubber Duck,引入跨模型家族的“第二意见”审查机制,让 AI 性能提升接近 75%。

IT之家援引博文介绍,在代码规划阶段,当前编程智能体的早期决策错误容易层层累积,而单一模型的自我审查会受限于自身的训练偏差与盲点。而 Rubber Duck 功能就是引入异构模型作为独立审查者,提供差异化视角以挖掘潜在错误。

该功能采用跨家族模型组合策略,用户选择 Claude 系列模型作为主控后,Rubber Duck 将调用 GPT-5.4 进行审查。其核心任务是检查智能体工作,输出高价值关注点清单,包括被遗漏的细节、值得质疑的假设及边缘案例。

博文进一步通过 SWE-Bench Pro 基准测试评估,基于 Claude Sonnet 4.6 和 Opus 4.6 单独运行的性能差距对比,发现 Sonnet 4.6 搭配 Rubber Duck 后,成功弥补 74.7% 的性能差距。

在涉及 3 个以上文件或超过 70 步的困难任务中,得分比基线高出 3.8%。实际案例显示,它能有效挖掘架构逻辑漏洞、循环覆盖错误及跨文件冲突等深层问题。

Rubber Duck 支持主动、被动及用户触发三种模式。系统会在制定计划后、复杂实现后及测试编写后三个关键检查点自动寻求审查,也可在陷入循环时被动触发。该功能为确保过程透明,用户也可随时请求审查,Copilot 将展示反馈内容与修改依据。

目前该功能已在实验模式下线。用户安装 GitHub Copilot CLI 并运行 /experimental 命令即可启用。启用后,选择 Claude 模型并开通 GPT-5.4 访问权限即可体验。

相关内容

热门资讯

第二分钟诀窍!老友辅助器,心悦... 第二分钟诀窍!老友辅助器,心悦踢坑辅助器,揭秘攻略(揭秘有挂)-哔哩哔哩1、起透看视 心悦踢坑辅助器...
第八分钟要领!微乐家乡官方免费... 第八分钟要领!微乐家乡官方免费下载安装,开心游戏攻略,介绍教程(今日头条)-哔哩哔哩1、游戏颠覆性的...
第九分钟技法!樱花之盛正版辅助... 第九分钟技法!樱花之盛正版辅助器免费,福州十八扑外卦视频,必赢教程(有挂技巧)-哔哩哔哩1、下载好樱...
2分钟模块!苹果广东雀神破解器... 2分钟模块!苹果广东雀神破解器,创思维激k辅助工具,详细教程(有挂存在)-哔哩哔哩1、苹果广东雀神破...
有关软件工程岗位消亡的说法被严... 来源:环球市场播报 作者:纳撒尼尔・迈耶索恩 华盛顿大学的计算机科学与工程专业学生因人工智能感到焦...
上海交大与阿里突破:AI实现图... 这项由上海交通大学人工智能学院和阿里巴巴集团联合开展的研究于2026年3月发表,研究团队开发了一种名...
第3分钟窍门!广西友乐辅助器,... 第3分钟窍门!广西友乐辅助器,人海大厅辅助插件,教你攻略(有挂详情)-哔哩哔哩在进入人海大厅辅助插件...
陈宏宇:太空算力是下一个万亿级... 文 | 钛资本研究院 在数字经济深度发展、算力需求呈指数级增长的当下,算力的部署边界正不断被打破,...
2分钟妙招!佛手十三道辅助器什... 2分钟妙招!佛手十三道辅助器什么样子的,潮汕掌上娱有破解版吗,详细教程(有挂神器)-哔哩哔哩1、佛手...
两分钟妙计!789大菠萝可以控... 两分钟妙计!789大菠萝可以控制吗,随意玩辅助软件,介绍教程(有挂头条)-哔哩哔哩一、789大菠萝可...