DeepSeek大升级!编程和数学能力猛升,网友:白送法拉利
创始人
2025-03-25 18:20:38
0

DeepSeek正在实现Meta承诺做到的事。

24日夜间,DeepSeek在用户群发出【通知】:DeepSeek V3 模型已完成小版本升级,欢迎前往官方网页、APP、小程序试用体验(关闭深度思考),API 接口和使用方式保持不变。

不是R2的更新,最终发布的模型为DeepSeek-V3-0324,V3的小模型更新版。如果你开始觉得没什么,那可能结果还是要出乎你的预料。

V3-0324最惊艳的两个特征,700GB,MIT 许可证。这意味着MaC部署优化以及开源。

根据文档显示,V3重点提升了数学和编程能力。但最重要的是,能力接近Claude 3.7 Sonnet的模型,却无限制免费提供,对于经常被Claude封号的朋友们,是不是感动到想哭。

而且Claude超高的价格(每月20美元),有X网友表示:这相当于白送法拉利。

小更新大升级?

在了解新版本之前,我们再回顾下V3版本,就是R1之前那个,为DeepSeek立下汗马功劳的版本。

DeepSeek-V3 是一个专家混合 (MoE) 巨头,模型参数为671B,每个Token激活 370 亿个。

它由多头潜在注意力 (MLA) 和 DeepSeek MoE 提供支持,在 14.8 万亿个Token上进行了训练。

新发布的V3-0324,在模型参数上略有放大,模型参数为 685B,但还没有上传 Model Card,模型基准能力测试方面也还没有更新。

在其官网提问,回答是知识截止日期为 2024年7月,之前的DeepSeek-V3 应该是2023年12月。

不仅是训练数据的更新,其中V3的文档重要变动,显示其优化了Function call。此前版本提示Function call会有调用问题,但目前已经支持调用函数。

有惊艳更重要是够好用

有国外网友评价,自 2024 年 6 月以来,没有一个LLM 能够像 Sonnet 3.5 一样,生成好的前端代码。今天,Deepseek 发布了V3 的更新,终于让Anthropic有了竞争对手。

在官网关闭深度思考按钮,就能体验V3新版的能力。更强的前端编程能力,接近Claude 3.7 sonnet,更精准的上下文理解能力。

有用户测试了其生成能力,提示词是基于以下一句话:

a horse riding on top of an astronaut, by grok 3

一匹马骑在宇航员身上

By:Claude 3.7

By:Grok 3

By:DeepSeek v3 03-24

Claude 3.7看起来更好一些,Grok3和V3呈现了不同的理解。

这次更新对前端变成能力有巨大提升,鲸哥测试了让成一个电商网站。

发布完任务,V3就开始飞速写了起来,鲸哥觉得可能给的任务太大了。

但是不到3分钟就写完了,写了750行代码,直接运行看效果。

它还设置了动态产品卡片悬停效果,以及支持手机端的动态响应式布局,甚至能直接采购了。

对于其数学能力,鲸哥也是找了一个年初大模型都还在做错的小学生数学题。V3-0324直接回答对了。

ChatGPT在1月份还在出错,“5个更小”那句话干扰了模型的理解。

V3不是R2,确实是各方面升级后更水桶,不是某一方面能力突出的惊艳。胜在开源好用,API价格大家都能接受,官网则对C端用户免费。

代替Meta成源神

这次V3-0324还彻底支持MIT协议,这意味着其更加开源。

毕竟MIT 许可证意味着任何人都可以出于任何目的使用、修改和分发它,甚至是商业目的。

大家很少将这种尺寸的模型直接全部开源。所以在最近,Perplexity CEO阿拉文德在接受专访时提到,“如果封闭模型没有保持领先,而每个人都可以微调开源模型,那么他们(OpenAI等)每次要求筹集100亿美元或甚至1000亿美元的合理性,就会变得越来越危险。

我认为DeepSeek时刻是真正具有革命性的。他们是否只花了600万美元来训练那个模型还有待商榷,但他们肯定没有花费相同数量级的资金,并且他们制作了一个令人印象深刻的模型,不仅提供了与最佳封闭模型相媲美的出色输出,还提供了透明的推理链。”

他认为,关键点是DeepSeek出现后,AI巨头以后很难拿到巨额融资了。他又提到DeepSeek对于创业企业意味着什么:

“也许你可以非常有效地将所有模型中最大的模型提炼成更小的模型,而这才是最终在生产中使用的模型。如果该模型是开源的,或者可以通过API以可承受的价格获得。

事实上,DeepSeek已经可以在AWS和Azure上以几乎零的边际成本提供,你只需要支付服务器费用。”

也正如这次V3升级版发布,国外有网友提到:DeepSeek正在实现Meta承诺做到的事。

与此同时,今天还有一个重要消息值得在本文一提,蚂蚁集团用国产芯片训练AI模型,使用了包括来自阿里巴巴和华为的芯片, 开发成本降低高达 20%。

我们正在经历一个振奋人心的时代!

相关内容

热门资讯

迪斯派机电取得热流道分流板专利... 国家知识产权局信息显示,迪斯派机电(昆山)有限公司取得一项名为“一种热流道分流板”的专利,授权公告号...
利好又来了!国家药监局公示两项... 来源:澎湃新闻 大火的脑机接口概念又迎来新的政策利好。 1月9日,国家药监局官网发布2项推荐性医疗器...
强强联手!出版与科技企业在京签... 封面新闻记者 张杰 北京报道 当前,数字经济正重塑各行各业,出版业也迎来“内容+科技”深度融合的关键...
零跑科技取得车辆指示灯控制电路... 国家知识产权局信息显示,浙江零跑科技股份有限公司取得一项名为“车辆指示灯的控制电路及车辆”的专利,授...
浙江亿脉不锈钢取得不锈钢管用高... 国家知识产权局信息显示,浙江亿脉不锈钢有限公司取得一项名为“一种不锈钢管用高效率打磨机”的专利,授权...
金盾股份:介绍涵道风扇零件精度... 来源:问董秘 投资者提问: 涵道风扇的桨叶和涵道具有复杂的三维气动型面,制造偏差会显著影响气动性能。...
【环时深度】2026 CES展... 【环球时报记者 杨沙沙 王冬 环球时报驻美国特约记者 卓然】编者的话:1月6日至9日,位于世界科技舞...
任天堂推出Switch 2新一... 观点网讯:1月9日,任天堂宣布推出Switch 2新一代Joy-Con 2手柄新配色,左手柄为淡紫色...
澄天伟业董事长冯学裕:以精密工... 本报记者 王镜茹 随着算力基础设施建设提速,散热技术成为制约AI服务器性能释放的关键因素。在风冷向液...
瑞易信科技取得间接蒸发双冷源一... 国家知识产权局信息显示,广州瑞易信科技有限公司取得一项名为“一种间接蒸发双冷源一体机”的专利,授权公...