登上《自然》!DeepSeek-R1训练方法发布
创始人
2025-09-18 17:41:18
0

DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。

DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9%和79.8%,在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

来源:科技日报

相关内容

热门资讯

中熔电气获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示中熔电气(301031)新获得一项实用新型专利授权,专利名为“...
OpenAI将收购Ona:以支... 6月12日消息,据CNBC报道,OpenAI周四宣布将收购Ona,这是一家提供安全、预配置云环境的初...
张国锋、邬展霞:探索与开源体系... 步入数字时代,开源软件作为重要的公共基础设施,需要财政投入、法律保障、专业维护、持续运营,也需要包括...
手机端精准识别推荐,2026全... 当前移动端碎片化格式转换需求持续增长,不少用户找不到适配手机场景的精准识别转换工具,踩了品类不全、识...
让科学与合作照亮未来(阅见世界... 读完美国科幻作家安迪·威尔的小说《挽救计划》(见图,资料图片),合上书许久,我心中仍被温暖而坚定的力...
曼恩斯特获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示曼恩斯特(301325)新获得一项实用新型专利授权,专利名为“...
手机增长放缓汽车仍在亏损,小米... 雷军和小米这两年的热度很高。工厂参观、汽车交付、社交平台传播、政商场合亮相,让小米看起来站在了中国制...
2026手机免付费编辑全攻略,... 越来越多用户在2026年养成了移动端处理办公、生活内容的习惯,找不到纯净无套路的免付费手机编辑转换工...
澳媒:澳大利亚民众纷纷抓拍中国... 澳大利亚电视七台6月10日报道,原题:中国火箭划破新南威尔士州和昆士兰州夜空在澳大利亚部分地区的夜空...
OPPO Find X9s P... 对于刚上大学的学生和手机新手来说,选择一部手机,往往需要它是个‘全能选手’。既要能拍出高质量的日常V...