DeepSeek V3再次震撼硅谷:中国初创公司的AI突破
发布日期:2025/3/26 10:24:38 访问次数:10
一、DeepSeek V3 - 0324模型发布概况
低调发布:DeepSeek于周一晚悄然发布V3 - 0324模型,该模型参数达6850亿个,在没有任何公告的情况下于AI存储库Hugging Face上线,发布时没有附带白皮书,只有一个空的ReadMe文件,与硅谷常规精心策划的产品宣传形成鲜明对比。
开源免费:DeepSeek的模型为开源模型,可供免费下载和使用,这与按月收取20美元费用的Claude Sonnet等商业模型截然不同。
二、模型性能特点
(一)硬件运行突破
消费级硬件可运行:初步测试表明该模型可在消费级硬件上运行,如高端苹果Mac Studio,已取得MIT许可证可自由用于商业用途。AI研究员Awni Hannun称新模型可在配备M3 Ultra芯片的苹果电脑上以每秒20个token的速度运行,打破大模型需数据中心运行的传统思路。
(二)性能指标飞跃
超越竞争对手:人工智能研究员Xeophon在内部工作台测试后,发现该模型在所有测试指标上有巨大飞跃,超越了甲骨文的Claude Sonnet 3.5,成为最好的非推理模型。
(三)技术创新优势
参数激活优化:DeepSeek从根本上重新构想大型语言模型运作方式,在特定任务期间仅激活约370亿个参数而非全部,降低计算需求。
两项突破性技术
多头潜在注意力(MLA):增强模型在长篇文本中保持上下文的能力。
多标记预测(MTP):每一步生成多个标记而非一次生成一个,与MLA共同将输出速度提高近80%。
三、DeepSeek对中国AI行业的意义
体现中国创新精神:DeepSeek体现了中国企业对效率和资源极致追求的精神,以有限计算资源实现更优性能,这种需求驱动的创新使中国人工智能在短时间内震惊全球。
推动行业发展
降低行业成本:大大降低大模型的能耗及计算成本,动摇华尔街对顶级模型基础设施投资规模的假设。
促进国内AI发展:中国人工智能行业对开源的广泛共识推动国内AI行业发展,不断缩小与世界顶尖对手的距离。
四、对行业格局的潜在影响
挑战国际巨头:有人认为DeepSeek的快速追赶下,其计划在4月发布的R2模型可能直接挑战OpenAI宣传已久的GPT - 5模型,若实现,中美两国发展人工智能的不同思路将迎来直接交锋。