4小时写诗,12小时超越GPT-2,AI大牛卡帕西开源“ChatGPT平替”!
创始人
2025-10-14 14:21:29
0

智东西

编译 | 王涵

编辑 | 漠影

智东西10月14日消息,昨夜,前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈·卡帕西(Andrej Karpathy)开源nanochat,号称可以只用不到100美元(约合人民币711.5元)训练出“简易版ChatGPT”,一经发布在GitHub上就获得了5.6k星。

▲nanochat Github主页(来源:Github)

开源地址:

Github:https://github.com/karpathy/nanochat

与其早期只涵盖预训练的nanoGPT不同,nanochat是一个极简的、从零构建的全栈训练/推理流程,用最精简的依赖代码库实现了“简易版ChatGPT”。

▲安德烈·卡帕西(Andrej Karpathy)推文截图(来源:X)

卡帕西在评论区中回复称,nanochat的基本架构类似Meta的Llama,但有所简化,并吸收了modded-nanoGPT的一些改进。

他还透露,截至指令微调(SFT)阶段,整个训练耗时3小时51分钟,总成本为92.4美元(约合人民币657.4元),“这样我们甚至还能剩下8美元买个冰淇淋犒劳自己。”他开玩笑道。

值得注意的是,由于目前对强化学习(RL)的支持尚不完善,卡帕西称他并未将其计入总运行时间。

也就是说,开发者只需启动云GPU实例,运行单个脚本,只需不到100美元(约合人民币711.5元),最快4小时,就能训练出可进行简单对话、创作故事诗歌、回答基础问题的“简易版ChatGPT”

训练约12小时,模型即可在评估模型推理能力、知识基础等基础能力的CORE指标上超越GPT-2。卡帕西还透露,当投入提升至约1000美元(约合人民币7114.7元),训练41.6小时后,模型表现还将显著提升,能够解决基础数学/编程问题并通过选择题测试。

例如,深度为30的模型训练24小时(相当于GPT-3 Small 125M的计算量,约为GPT-3的千分之一)后,在多任务的语言理解基准MMLU得分超40分,在简单常识推理任务ARC-Easy超70分,在数学推理能力基准测试GSM8K中获得超20分的成绩。

▲nanochat性能表格(来源:Github)

这个有着8304行代码的项目实现了以下功能:

1、使用新的Rust实现训练分词器;

2、在FineWeb数据集上预训练Transformer LLM,并通过CORE指标多维度评估;

3、使用SmolTalk的用户-助手对话数据、选择题数据和工具使用数据进行中期训练;

4、进行指令微调,在常识选择题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)等基准上评估聊天模型;

5、可选使用“GRPO”算法在GSM8K数据集上进行强化学习;

6、通过带KV缓存的引擎实现高效推理,支持简单预填充/解码和工具调用(轻量级沙箱中的Python解释器),可通过CLI或类ChatGPT网页界面交互;

7、生成单页Markdown评估报告,以游戏化方式总结全流程。

在原推文的评论区中,卡帕西还给出了一个nanochat与用户对话的案例。在这个对话中,基础版nanochat已经实现AI聊天机器人的对话功能,并且可以根据要求撰写诗歌。

▲nanochat功能演示(来源:X)

在卡帕西的推文下,网友们发出一致好评,有人称“非常受到启发”,甚至说“这个人(指卡帕西)简直是个传奇。”

▲网友评论节选(来源:X)

还有网友已经做出了nanochat的可交互实时代码图谱,能够更加直观地探索这个代码库:

▲nanochat实时代码图谱(来源:X)

结语:nanochat为AI开发成本控制路径提供参考

nanochat项目的推出,为AI模型开发的成本控制提供了新的参考。该项目证明了,在适当的架构设计和流程优化下,以100美元级别的成本实现基础对话AI功能具备技术可行性。

虽然当前版本在性能上仍与商用大模型存在差距,但其展现的性价比优势,为AI技术在更广泛场景中的应用拓展了可能性。随着开源社区对该项目的持续优化,这种高效开发模式或将为AI技术普及带来新的推动力。

相关内容

热门资讯

世界首次!飞机与静止卫星实现3... 随着空间激光通信技术的飞速发展,实现跨平台、长距离的高速率数据传输已成为提升航空及国防通信能力的关键...
八分钟开挂!上饶中至能操控吗,... 八分钟开挂!上饶中至能操控吗,微友联盟辅助下载(我来分享开挂辅助平台);打开点击测试直接进入微信(1...
6分钟辅助!小闲川南怎么辅助,... 6分钟辅助!小闲川南怎么辅助,超级三加一辅助(透视ai开挂辅助平台);一、小闲川南怎么辅助有挂的是的...
第十分钟透视!途游休闲铺破解版... 第十分钟透视!途游休闲铺破解版,广西八一字牌可以破解吗(盘点一款开挂辅助下载)>>您好:软件加136...
第1分钟辅助!人人燕赵挂,福建... 第1分钟辅助!人人燕赵挂,福建天天开心一直输怎么办(实操分享开挂辅助安装);福建天天开心一直输怎么办...
芯瑞达取得增亮背光反射板专利,... 国家知识产权局信息显示,安徽芯瑞达科技股份有限公司取得一项名为“一种用于增亮的背光反射板”的专利,授...
第4分钟透视!三加一辅助器,微... 第4分钟透视!三加一辅助器,微信茶馆辅助(必知教程开挂辅助插件);无需打开直接搜索加(薇:13670...
5分钟辅助!一起宁德钓蟹辅助,... 5分钟辅助!一起宁德钓蟹辅助,广东雀神智能插件(透视工具开挂辅助下载);1、不需要AI权限,帮助你快...
消保筑基守初心!中国电信西安分... 在第 44 个 “3・15” 国际消费者权益日前后,中国电信西安分公司紧扣西安市 “提升消费品质 监...
第7分钟辅助!雀友会广东潮汕辅... 大家好,今天小编来为大家解答雀友会广东潮汕辅助有开挂这个问题咨询软件客服可以免费测试直接加微信(13...