中科曙光发布国内首款国产原生 RDMA 高速网络 scaleFabric
3 月 12 日,中科曙光宣布实现国产高端原生 RDMA 技术关键突破,正式发布国内首款全栈自研的 400G 无损原生 RDMA 高速网络 ——scaleFabric。该产品从底层 112G SerDes IP、核心芯片到上层管理软件实现 100% 自主研发,技术规格全面对标国际顶尖同类产品且部分指标实现赶超,填补了国内数据中心高端高速网络领域的技术空白,为超大规模智算集群打造了自主可控的 “算力大动脉”。
RDMA 高速网络作为智算集群的核心基础设施,凭借零丢包、高带宽、低延迟的特性,直接影响大规模分布式训练的算力效率,但其核心技术与产业链长期被海外厂商垄断。此次发布的 scaleFabric 面向超大规模智算集群设计,构建起从硬件到软件的完整自主技术体系,性能表现亮眼:400 系列网卡基于 PCIe5.0 接口,端口带宽达 400Gbps,端到端通信时延低至 0.9 微秒;配套交换机单端口带宽 800Gbps,整机交换容量双向 64Tbps,交换时延仅 260 纳秒,可充分满足万卡级 AI 训练集群的极致需求。
在稳定性与扩展性上,scaleFabric 展现出显著优势。产品采用基于信用的无损流控机制,从根源规避拥塞丢包风险,链路故障恢复时间小于 1 毫秒,已支撑近万卡集群持续稳定运行验证超 10 个月。相较于国际同类产品,其交换机端口密度提升 25%,网卡最大 QP 数支持翻倍,单子网互连规模达传统 IB 的 2.33 倍,可轻松支撑 11.4 万卡超大规模集群部署,同时还能将网络总成本降低 30%,大幅降低超大规模智算集群的建设与运维成本。
目前,scaleFabric 已完成规模化落地验证,成功部署于国家超算互联网郑州核心节点,支撑三套万卡级 scaleX 智算集群上线运行,总规模达 3 万卡。该网络系统可实现跨 POD 组网及大规模并行训练任务,在实际应用中保持稳定运行,为国产原生无损 RDMA 网络在高端智算基础设施中的应用提供了重要实践参考。

图片来源:中科曙光网站
此次 scaleFabric 的发布,标志着我国在高端 RDMA 智算网络领域实现核心技术自主可控,打破了海外厂商的长期垄断。依托在高性能计算、存储与网络领域的技术积累,中科曙光进一步完善了 “算 — 存 — 网” 协同发展的完整算力底座能力,补齐了我国智算基础设施的关键短板。该产品可适配万亿参数大模型训练、AI for Science、高通量推理等多元场景,不仅为国内超大规模智算集群建设提供了高带宽、低时延的自主解决方案,更推动国产高性能网络产业生态加速形成,为我国数字经济与人工智能产业高质量发展提供坚实支撑。
版权声明:本站部分内容素材由第三方供稿或网络公开信息整理,若其中内容有误或不慎侵犯了您的权益,请向我们提供确切的证明,以便我们进行核实处理。本站所展示的内容仅供参考并不构成任何投资决策建议,感谢您的关注和对我们的支持!
转载请注明出处:https://www.euobiz.cn/news/sugon-rdma-scalefabric-202603.html


