国内阵营再添超级节点:华为、阿里领路,AI算力
在大模型参数进入爆炸式增长阶段的同时,对AI算力的需求从单点崩溃加速到系统层面的集成。在此背景下,“超级节点”作为一种打破传统计算能力瓶颈的新产品形态,正逐渐成为行业主流。华为副董事长、轮值董事长徐直军在华为全联接大会2025上表示,从大规模AI计算基础设施建设的技术角度来看,超级节点成为主导产品形态,成为AI基础设施建设新常态。在超级节点赛道上,国内巨头科技引领给出答案。华为此前推出了CloudMatrix384超级节点,通过高速网络矩阵链路全面链接384个升腾NPU和192个鲲鹏CPU,生成单卡推理吞吐量达到2300 token/s的超级“AI服务器”。近日,阿里云发布了新一代盘九128超级节点AI服务器的核心部分,包含自主研发的CIPU CIPU CIPU 2.0芯片和EIC/MOC高性能网卡。单柜支持128颗AI计算芯片。从全球来看,人工智能基础设施建设倒逼“加速键”。 Nvidia、Openai、Meta等巨头科技纷纷推出AI基础设施新计划,推动AI算力规模提升。华龙证券认为,中美之间的AI竞争正在从“单卡性能”转向“系统层面的效率”。中国采用集群建设+开源生态+工程交付的方式完成AI基础设施建设。国内阵营在发展超级节点AI算力方面面临着现实瓶颈,这也推动了超级节点的诞生。中国信息通信研究院《超级节点发展报告》明确指出,当前超级节点建设f AI算力面临“通信之墙、耗电墙耗散、墙复杂度”三大基本挑战。指出千亿模型梯度十亿模型同步产生的TB级数据使得以太网传统带宽不变;同时,随着算力规模的扩大,万级处理器引起的故障常态化,对RAS的自动化运维和能力提出了更高的要求。从技术角度来看,信息通信研究院明确,过剩节点是由AI计算节点通过高速互联协议组成的、拥有更大内存空间的AI系统。超级节点可支持32颗及以上AI芯片。从AI芯片到交换芯片的带宽至少为400GB/s,传输设备中的延迟小于500ns。 Superno中的AI芯片de域支持内存的单个内存,AI芯片可以直接使用内存内存访问其他AI芯片的内存。为了实现大规模高效的组网,超级节点需要通过规模化组网来突破单机对机器的算力,开发大规模高速互联系统;同时,可以通过横向扩展组网实现集群的扩展,突破单节点计算能力的限制。这两项能力直接决定了AI模型的训练和理解的效率,以及扩大计算规模的边界。华为等公司已经完成了超级节点服务的落地。徐直军表示,CloudMatrix384超级节点是基于Tlas 900超级节点构建的云服务的单个示例。自今年3月上线以来,已部署Atlas 900超级节点300余个,服务客户20余家。 Atlas 950 超级r Node将于2026年第四季度推出。据报道,相比同样将于明年下半年推出的NVIDIA的NVL144,Atlas 950 SuperNode卡的尺寸为56.8倍,总计算能力为6.7倍,内存容量为15倍,达到1152 16.3PB/s。华为云还将开放超级节点互联协议灵趣2.0技术规范,并推出全球首个通用计算超级节点泰山950超级节点。阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴永明在2025计算大会上强调,超级AI云是下一代计算机。新的人工智能计算范式需要更密集的计算能力、更好的网络和更大的集群。据悉,盘九128超级节点AI服务器采用开放架构,增强可扩展性,可实现带宽扩展至PB/s级和 100 NS 的超低延迟。相比传统架构,同等AI算力下,识别性能可提升50%。吴永明还宣布,阿里巴巴积极推进三年3800亿的人工智能基础设施建设计划,并将继续加大投入。国内其他厂商也加快超级节点布局。曙光发布首款基于开放架构的AI计算超级集群系统;浪潮信息发布万亿参数大模型超级节点AI服务器“元脑SD200”; MUXI技术发布了多种超级节点形态,包括光互联超级节点(16-64x GPU)、耀尔3D Mesh超级节点(32/64x GPU)等。国信证券认为,超级节点的主要架构在于“总线级互联”机制和“平等协作”机制,这使得万卡的集群在逻辑上可以正常运行。高效地作为统一的计算机,实现计算和内存资源的全局调度。华为在升腾AI芯片和超级节点技术方面取得突破,已并存世界强国。 Rap应具备高密度、高效率、高灵活性、大尺寸的“四高”特性。当前,全球范围内正在兴起新的人工智能基础设施热潮。当地时间10月6日,Openai表示与AMD达成战略合作。 Openai将投入6吉瓦的AMD GPU计算能力,利用AMD Instinct系列GPU赋能下一代人工智能基础设施。据悉,NSTINCT MI450 GPU 的首批 1GW amd iang 部署预计将于 2026 年下半年开始。当地时间 9 月 22 日,Openai 与 Nvidia 宣布签署意向书。双方计划为下一代部署至少 10 吉瓦的 Nvidia 系统t代Openai基础设施用于训练和运行D代模型以部署超级智能。为了支持数据中心和部署电力容量,Nvidia还计划向Openai投资高达1000亿美元。此前,Openai还与数据库巨头甲骨文签署了为期五年的计算合作协议,总价值高达3000亿美元。尽管与多方潜在的利益关系和合作关系引发了人们对英伟达、Openai、甲骨文之间“循环交易”的质疑,但这也表明,加速AI基础设施建设已经成为一个不可控的行业。 NVIDIA高管此前在财报电话会议上表示,预计到2030年AI基础设施支出将达到3万亿至4万亿美元。 放松对AI计算基础设施的投资,这将推动模型和代理能力的不断迭代,有助于加速内容领域AI应用的商业化社交、广告、电子商务、教育、金融等领域。新京报贝壳财经记者 魏博雅 编辑 王金宇 校对 赵琳
上一篇:Avita和华为计划到2030年共存17种产品 - 北京新闻
下一篇:没有了
下一篇:没有了