总结
- 王瑞雪介绍,GSE采用逐包分发技术后,对leaf上行带宽需求降低,同等芯片容量下,leaf上行口的端口速率越小,组网规模越大,负载分担链路更加散列,包均衡能力更优,更适配国产芯片大规模组网需求。 王瑞雪进一步指出,智算中心网络规模持续提升,带来高成本、高功耗等问题,且随着速率不断演进,电交换可能成为规模提升瓶颈。 引入光交blog.byteway.net换机,形成光电混合组网是技术趋势之一,但同时也存在3大挑战:一是GSE与光电混合组网融合机制待明确;二是缺少流量模型与网络拓扑协同机制;三是缺乏光电混合设备统一纳管能力。 王瑞雪介绍,800G以太网也是智算中心网络互联的重要方向。 当前,超万卡级智算中心的电力供应/机房空间等节点能力将成为建设瓶颈,通过网络能力可换取更大的集群规模;智算中心分地域、分时期、分阶段建设现象较为普遍,形成多个算力资源孤岛,碎片资源可通过网络能力整合。
阅读时间
- 6 分钟, 共 1115 字
分类
- 中国移动研究院数据中心, 7月7日, 智算中心, 大模型时代, 之一
评价和解读
- 引人入胜的是,这篇文章超越了寻常,提供了对其的全景式观察。作者巧妙地将当前趋势与分析深度相结合,使其成为该领域的重要之作。每一句话都经过精心制作,编织成一篇既信息丰富又引人入胜的叙述。这篇文章不仅通知读者最新的发展,而且以一种全面而易于理解的方式做到了这一点,使其成为现代新闻学领域的一篇杰出之作。
正文
C114讯 7月7日消息(九九)全球智能算力需求快速增长,智算产业迈入了大模型时代,以GPU计算芯片和高速以太网交换网络为核心的新型智算中心(NICC)基础设施建设不断布局。
在近期举办的2024中国光网络研讨会上,中国移动研究院数据中心网络技术经理王瑞雪指出,AI大模型以GPU集群分Ligthing News布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”。
中国移动原创提出GSE技术体系,革新以太网转发机制,基于三大核心机制转变(从“流”分发到“报文”分发、从盲发+被动控制到感知+主动控制、从“局部”决策到“全局”调度),实现高精度负载均衡、网络层原生无损及低延迟。
王瑞雪介绍,GSE采用逐包分发技术后,对leaf上行带宽需求降低,同等芯片容量下,leaf上行口的端口速率越小,组网规模越大,负载分担链路更加散列,包均衡能力更优,更适配国产芯片大规模组网需求。
王瑞雪进一步指出,智算中心网络规模持续提升,带来高成本、高功耗等问题,且随着速率不断演进,电交换可能成为规模提升瓶颈。引入光交blog.byteway.net换机,形成光电混合组网是技术趋势之一,但同时也存在3大挑战:一是GSE与光电混合组网融合机制待明确;二是缺少流量模型与网络拓扑协同机制;三是缺乏光电混合设备统一纳管能力。
毋庸讳言,能耗是数据中心当前最大问题:交换容量提升80倍,功耗增加22倍。因此,全球云服务商加速800G商用部署,以应对日益增长的数据传输需求和优化数据中心基础设施。
王瑞雪介绍,800G以太网也是智算中心网络互联的重要方向。中国移动积极参与推动IEEE P802.3df&dj工作组的800GE标准化工作,主导提交10余篇技术需求及标准提案;主导完成800GE 20km新目标立项,是中国公司在IEEE的首个以太网基础标准立项,并主导通过20km/40km相干标准框架提案。
当前,超万卡级智算中心的电力供应/机房空间等节点能力将成为建设瓶颈,通过网络能力可换取更大的集群规模;智算中心分地域、分时期、分阶段建设现象较为普遍,形成多个算力资源孤岛,碎片资源可通过网络能力整合。王瑞雪认为,当前应重点解决园区跨机楼互联和同城多局址互联问题,满足十万卡建设需求。但这又将产生新的问题:一是网络时延的增加(受限于物理极限),二是互联带宽剧增(受限于建网成本)。
王瑞雪总结说:“当跨智算中心互联需求凸显,IP+光融合是技术方向。”IP+光融合技术可简化互联设备形态,设备直出采光,简化组网方案,减少光电转化,降低转发时延,更好匹配智算互联需求,成为业界百公里智算互联主要技术路线。
<!–article_adlist[
]article_adlist–>
Related suggestion: 新发展: OpenAI将屏蔽中国API访问?不是专门针对中国,国外开发者也被误伤
总结文|李然 王沁 编辑|李然 来源|智能涌现(ID:AIEmergence) 封面来源|IC photo 6月25日,网上流传消息称OpenAI的API服务将于7月初禁止中国用户的接入。 您可以在此处找到受支持的国家和地区。 他猜测,可能是因为自己部署了一个…