微软和OpenAI都要自己开发芯片，但最后的赢家是英伟达记者张永毅

发布日期：2023/10/13 15:14:50 访问次数：196

编辑高
2007年，英伟达创始人黄仁勋在接受东方卫视一档电视节目采访时，主持人将当时英特尔、AMD、英伟达的市场格局比作《三国演义》。黄仁勋纠正了他，称这种说法“过于狭隘”，并预言20年后最重要的将不再是个人电脑或服务器市场，而是每个人口袋里的移动电脑。同时，判断“索尼和苹果随时可能加入竞争”，Nvidia必须每半年进行一次技术迭代，使产品性能翻倍。
当时正是智能手机爆发的前夜，但黄仁勋准确洞察到了Nvidia作为GPU供应商的商机。英伟达还与小米合作，推出搭载英伟达芯片的小米手机和安卓平板电脑。虽然由于能耗控制和市场规模不如竞争对手，英伟达最终还是放弃了智能手机业务。但是，黄仁勋的“半年一次的技术迭代”被彻底传承了下来，不相关的公司也进入了芯片行业，比如微软和OpenAI。
对技术迭代的偏执追求是英伟达企业文化的重要组成部分:英伟达的名字灵感来源于NV(next version的意思是“下一个版本”)和Invidia(拉丁语意为嫉妒)。1993年英伟达成立的时候，硅谷有几十家GPU厂商，但最后，英伟达成为唯一存活下来的玩家。
英伟达能活下来，与其说是因为它的产品优秀，不如说是因为它在达尔文式的优胜劣汰中一次又一次地生存下来的能力。在过去的二十年里，英伟达一直保持着研发支出绝对值的高速增长。即使是在金融危机严重冲击科技行业的那几年，英伟达依然在连续两年净利润为负的压力下，力推包括CUDA在内的项目，而这些项目在当时都远未盈利。
英伟达出售的GPU是所有有志于在AI生成的大型模型领域创造成就的初创企业的唯一选择，因此几乎所有参与其中的制造商都“深受其害”——事实上，在过去二十年中，英伟达的许多大客户都曾因GPU专利授权等问题对簿公堂。如今买英伟达GPU更像是战备，更何况和英伟达还有更深层次的合作关系。
如今，在生成式对话模式引发的AI浪潮过去6个月后，英伟达的客户也露出了原来竞争对手的嘴脸:10月初，资讯还报道了微软与AMD在机器学习芯片领域的合作，相关计划从2019年就开始进行。目前，微软至少有300名员工从事代号为“雅典娜”的芯片研究项目。
这种芯片的初始版本将采用5纳米工艺。除了这个项目之外，微软还在与AMD合作，结合其在SoC领域多年的研发经验，推进AI芯片项目的研发。
作为OpenAI的投资者和ChatGPT的受益者，微软从一开始就保留了自主选择的权利，OpenAI并没有完全臣服于微软。即使两家公司在AI商业化上的分歧越来越大，分道扬镳似乎也即将到来，但显然眼下有更迫切的问题需要解决。
对于OpenAI来说，训练下一代GPT-5和ChatGPT日常运行的GPU成本一直占据着巨大的比重，所以OpenAI涉足自研GPU芯片似乎并不奇怪:最近有知情人士透露，OpenAI也在计划研发自己的芯片，但从零开始打造一款高性能的AI芯片至少需要两年时间，所以OpenAI现在更倾向于寻找一家合适的芯片创业公司并赚到钱。OpenAI现任CEO奥特曼投资的三家芯片公司:Cerebras、Rain Neurology、Atomic Semi都是可能的收购对象。
成立于1993年的英伟达，在成立后的20多年里，似乎一直是游戏显卡领域一个不为人知的小众市场品牌。但直到2015年，随着元宇宙、自动驾驶、最重要的人工智能等概念的形成，GPU的计算能力才成为最珍贵的东西，英伟达才成为时代的宠儿。GPU在深度学习计算场景面前相比CPU的巨大优势使其成为众人追捧的对象。在全球范围内，大量的数据中心正在建立，以加速计算，GPU的订单像雪花一样飞向英伟达。
虽然提出的GPU性能每两年翻倍的“黄定律”在业内饱受质疑，但英伟达的GPU每年的涨幅似乎都严格遵守这一定律:2020年发布的A100价格在1万美元左右，今年H100价格飙升至3万美元。
即便如此，与A100和H100相比，训练大模型的效率提高了200%。借助NVIDIA在服务器集群上使用的计算方法，训练速度可以提升到前者的9倍，大型模型公司普遍追捧的“单美元效率”更高。这样一来，买英伟达GPU似乎只剩下两个选择:“有钱多买，没钱少买”。
2023年8月，AI云服务创业公司CoreWeave宣布获得23亿美元债务融资，但这家估值仅为20亿美元的公司提供的抵押品是他们手中现有的H100 GPU，以及受益于其与英伟达良好合作并承诺优先供应H100的订单。
“对于这家初创公司来说，NVIDIA GPU就是金钱”2023.08.09 The Verge报告标题
有限的产能加上狂热的市场需求，让黄仁勋宣称英伟达是AI时代的TSMC显得有些谦虚——即使在2022年，TSMC也只占据了全球晶圆代工产能的60%，而英伟达今天已经占据了可用于机器学习的图形处理器市场的95%。
既然英伟达能成为AI时代的TSMC，为什么其他厂商不能？
就连马斯克也曾惊呼“拿个GPU比拿药还难”——更早之前，他还在推特上吐槽“现在好像连狗都在买GPU了”，随后他也加入了抢购GPU的队伍，为推特的X.AI的大规模语言模型项目买了约1万个英伟达GPU
事实上，马斯克还计划推动特斯拉开发自己的通用GPU，用于数据中心和其他场景:2021年，特斯拉在AI Day活动上发布了D1芯片，该芯片像A100一样配备了500亿个晶体管，但这款产品没有像英伟达的GPU产品一样进行快速迭代更新，迄今为止这款芯片没有发布迭代产品。
原因可能马斯克已经解释过了:今年第二季度，在特斯拉财报电话会议上，马斯克表示，之所以投资超过10亿美元用于D1芯片的研发，只是因为特斯拉无法获得足够多的英伟达GPU，并表示如果英伟达能够提供足够多的GPU，“特斯拉根本就没有必要开发D1”。“但很遗憾，英伟达连我们要求的一小部分计算都无法提供，”马斯克也吐槽道。
这可能也是很多厂商一边买英伟达GPU一边开始自己研究的真正原因:谷歌/微软都是没有工厂的半导体厂商，这个战场上还有IBM、特斯拉这样的玩家。在大洋彼岸，中国AI研究人员对计算能力的需求甚至比美国同行更迫切:根据中国信通院《计算能力白皮书》中的信息，美国、中国、欧洲和日本在全球计算能力规模中的份额分别为34%、33%、14%和5%，其中全球基础计算能力份额美国为37%，中国以26%位居第二。
2022年美国政府禁止英伟达向中国客户出口H100和A100后，中国的AI研究机构和企业开始寻找可行的替代方案——自研当然是各大厂商的优先选项之一。
硬件方面，实现硬件计算能力超越英伟达GPU并不是最难的目标——至少“第二梯队”的竞争对手至少可以不被甩太远，华尔街、天之芯等国内公司都在从事高计算通用GPU的研发。
即使在训练或推理等独立场景应用领域，专注于一般场景的GPU也未必是最高效的选择。谷歌、亚马逊、阿里云、百度多年研发的专用集成电路(ASIC)芯片TPU可能更合适。这些玩家的计算能力可能在2024年超过H100。百度将在2024年发布第三代昆仑芯，计算能力是标准的NVIDIA A100。
随着摩尔定律的失效，以及半导体前沿工艺探索成本和难度的飙升，英伟达GPU的硬件性能依然强劲，但并非遥不可及。同时，竞争对手也有足够的资本参与最新工艺的研发，突然有一天拿出一款与英伟达平起平坐的产品:英伟达的老对手英特尔就是最鲜明的例子。
英伟达每次都能赢，但竞争对手只需要赢一次，就足以撼动市场，让英伟达的地位不再稳固。
真正让后来者害怕的只是一部分原因。数百万从事AI开发和深度学习的开发者，可能是推动英伟达成为事实上的垄断企业的另一条“护城河”。
2007年，NVIDIA发布了基于Telsa架构的第八代Nvidia GeForce GPU，同时还发布了CUDA这一开发编程环境，供开发者使用NVIDIA GPU进行图像处理以外的操作，让当时的开发者不用学习复杂的着色语言和图形处理原语就可以用自己熟悉的代码语言编程。
与此同时，英伟达开始组建AI深度学习研究团队:当布莱恩·卡坦扎罗(Bryan Catanzaro)在2008年初加入英伟达时，他发现自己是公司里唯一一个在深度学习领域从事硬件研发的员工。
“CUDA发布后的十年里，华尔街一直不看好它，以为没人会用。”布莱恩·卡坦扎罗(Bryan Catanzaro)曾经描述过英伟达在早期建立自己的机器学习软件生态系统时所面临的阻力。“在英伟达的市值中，CUDA的估值为零。”
布莱恩现在是英伟达的副总裁，带领数千名员工从事这一领域的研究。CUDA发布十年来默默无闻。直到2016年，人们才突然意识到，它是一个完全不同的开发工具，可以用革命性的加速推动人工智能领域的研究速度:在CUDA之前，开发人员编写代码让GPU完成大量的通用计算是一件非常繁琐的事情。CUDA作为与NVIDIA的硬件深度耦合的开发环境，也决定了即使现在CUDA生态系统蓬勃发展，其他AI芯片公司也无法完全兼容这个生态系统，更不用说保证足够的效率和一致性。
英伟达强大的盈利能力进一步支撑CUDA平台和英伟达的GPU与时俱进，成为下一个时代诞生的梦工厂:去年发布的最新一代GPU H100包含了大量的硬件升级，并采用TSMC最新的4N工艺制造——专为英伟达GPU打造的5nm工艺。因此H100可以容纳800亿个晶体管。同样的大模型训练所需的GPU数量可以减少到A100的三分之一。
就像iOS+iPhone的黄金组合之于苹果，黄仁勋的先见之明让英伟达在软硬件集成领域投入巨资十余年，不仅让GPU成为一只金鹅，也最终形成了一个任何竞争对手都无法撼动的生态屏障。可以说这是一家伪装成硬件公司的软件公司。
2016年，黄仁勋亲自前往三藩市，向新成立的OpenAI赠送了世界上第一台用于人工智能的超级计算机DGX-1。这个当时的性能怪兽随即被投入到一项名为“生成模型”的技术研究中:这项计划旨在开发一种能够阅读和辨别人类语言、自行收集和使用信息、实现智能响应的对话程序。
OpenAI研究人员打开了人工智能超级计算机NVIDIA DGX-1。
现在大家都知道这个故事的最终结局了——ChatGPT是这个项目迄今为止最辉煌的诞生成果；2023年9月25日，OpenAI的官方博客也宣布了ChatGPT的更新:首次推出多模态功能，ChatGPT开始支持语音和图像识别以及内容创作，OpenAI聘请专业配音演员为其创作声音内容，人类用户终于可以通过语音与ChatGPT直接对话。
自2016年OpenAI获得第一台DGX-1用于研究以来，ChatGPT日常运行使用的HGX A100服务器数量已达3617台。不管过去的路有多曲折，英伟达作为这个时代最大的赢家之一，在推动人工智能行业“像人一样聪明”的目标上又迈出了一小步。
即使竞争对手的阴云已经开始聚集，黄仁勋在2006年的决定还是让英伟达“用时间换空间”，用十多年的时间为英伟达筑起了护城河。对于任何有意替代英伟达的厂商来说，巨大的差距需要时间和金钱来弥补。时间和金钱似乎站在英伟达一边。
《巴伦周刊》的作家Tae Kim最近计算过，英伟达每卖出一台H100，就能从中赚取1000%的利润。从硬件BOM表来看，售价超过3万美元的H100的毛利率对英伟达来说已经超过90%，甚至TSMC也只能从中获得1000美元。
反过来，这些可怕的盈利能力被英伟达用来巩固其护城河。英伟达目前全球员工超过2万人，平均年薪20万美元，同时R&D费用维持在20%以上；没有工厂的英伟达多年来一直保持着比特斯拉和苹果更多的R&D投资。
其实微软也没想到自研GPU芯片项目能一举击败英伟达:微软和英伟达合作打造的下一代超级计算机已经在路上了，就算笑里藏刀，巨头们还是愿意为了更高的股价而合作。但在可预见的未来，通用AI芯片继续被英伟达垄断仍将是现实。也许只有两三年后，我们才能看到AI时代下一个英伟达的诞生。"

联系人：卧虎

QQ：8888910