发布日期:2025-01-04 06:25 点击次数:171
近日,在中国出动(600941)集团公司引导下,中国出动征询院联接中国出动黑龙江公司在宇宙运营商最大单集群智算中心——中国出动(哈尔滨)数据中心完成首个面向PP(活水线并行)造就的OTN承载百公里级智算散播式协同现网技艺磨真金不怕火。本次技艺磨真金不怕火初度完成了基于800G OTN的104km跨智算集群散播式PP造就,结束了等同单节点造就效率98%以上的高效协同造就,是业界初度百公里级跨集群PP造就可行性技艺考证探索。
跟着智算集群限度向超万卡演进,单智算节点的抓续扩容将濒临电力供应、机房空间的广大挑战,况且智算中心分地域、分时代、分阶段成立风物较为大宗。智算散播式协同是破解单节点辘集部署受限、算力资源孤岛等用功的病笃处分决议。而若何将散播式部署的智算节点进行高效的互联,充分施展算力资源的最大效用,是业界亟需征询的环节问题。OTN具有大带宽、牢固低时延、高可靠等传输和组网技艺特色,已无为诈欺于主干传送和城域传送网络,是构建跨集群散播式造就的潜在互联技艺。而散播式智算对光网络的新需求与摄取的DP(数据并行)、PP等造就并行模式径直干系,其中,PP是基础大模子造就的最常用并行口头之一,比较DP具有通讯频次高、通讯时辰不能沿途隐蔽等更高难度,其拉远可行性在业界存在较大不合。
中国出动征询院面向智算散播式协同场景抓续开展技艺改进,完成业界首个面向PP造就的OTN承载百公里级智算散播式协同技艺现网磨真金不怕火。在磨真金不怕火中基于800G OTN互联的两个智算集群上启动700亿级参数的大型基础话语模子,在64张GPU卡、4个PP域区别在相距104km的两个节点部署场景下,结束了等同单节点造就效率98%以上的高效协同造就,是业界初度考证了OTN承载基于PP的百公里跨集群造就可行性,为散播式智算技艺演进提供了全新技艺路子和精细磨真金不怕火数据。此外,还改进建议了面向智算散播式协同的OTN无损倒换技艺决议,通过芯片级算法结束传输链路断纤、误码时造就效率的无损和无感知。
自2023年起,中国出动征询院联接国内联接伙伴,开展跨集群散播式造就互联技艺攻关欧洲杯2024官网,改进建议基于OTN的智算散播式协同架构,初度完成2-100公里不同距离多场景下OTN承载散播式智算技艺磨真金不怕火,干系效果在光通讯顶会ECOC发表。中国出动后续将围绕智算散播式协同深刻激动环节技艺攻关、原型研发与磨真金不怕火考证,探索散播式智算中心新模式。
Powered by 欧洲杯下单平台_欢迎您 @2013-2022 RSS地图 HTML地图