一、智算技术发展的 七大关键技术
关键技术 1:存算一体
作为一种新型算力,是突破AI 算力瓶颈和大数据的关键技术。与以往的冯诺依曼架构相比,打破了由于计算单元与存储单元过于独立而导致的“存储墙”(CPU处理数据的速度与存储器读写数据速度之间严重失衡的问题,严重影响目标应用程序的功率和性能),达到用更低功耗实现更高算力的效果。
作为可10倍提升单位功耗算力的颠覆性技术之一,存算一体有望降低一个数量级的单位算力能耗,在 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等大规模并行计算场景中,具备高带宽、低功耗的显著优势。
目前主流的实现方案包括:
一是利用先进封装技术把计算逻辑芯片和存储器(如 DRAM)封装到一起;
二是在传统 DRAM、SRAM、NOR Flash、NANDFlash 中实现存内计算;
三是利用新型存储元件实现存算一体。
当前存算一体技术仍处于早期阶段,我国存算一体芯片创新企业与海外创新企业齐头并进,在该领域的先发制人,为我国相关技术的弯道超车提供了巨大可能性。
关键技术 2:-云多芯
一云多芯是指用一套云操作系统来管理不同架构的硬件服务器集群,可以支持多种类型的芯片,解决不同类型芯片共存所带来的多云管理问题,最大限度利用云上资源池的强大算力。
作为IT产业链承上启下的关键环节,向下纳管和兼容底层各种芯片、整机、操作系统等软硬件基础设施,向上支撑大数据、人工智能、物联网、5G 等新代企业级应用,有效规避算力孤岛,逐步实现从算力的并存到算力的统一。
一云多芯通过纳管不同指令集的芯片,包括CPU、GPU、DPU等,为各类应用场景提供异构多元化的算力支持,满足智算业务高性能计算和数据处理要求,助力算力平台建设标准化、统一化、服务化。
中国电信云骁智算平台基于天翼云全栈自研操作系统,打造一云六芯,全面支持主流国产芯片。阿里飞天操作系统正在全面兼容X86、ARM、RISC-V 等多种芯片架构,实现一云多芯。
关键技术 3:CPO
CPO(共封装光学)是光模块未来的一种演进形式,被视为AI高算力下高能效方案。
CPO是指把光引擎和交换芯片共同封装在一起的光电共封装,使电信号在引擎和芯片之间更快传输,缩短光引擎和交换芯片间的距离,有效减少尺寸,降低功耗,提高效率。
800G光模块可提高服务器之间互联密度,在同等算力下计算效率倍增,高效支撑AI 大模型 100%释放算力。随着 AIGC 发展趋势明朗,高算力需求催化更高速率的 800G/1.6T 光模块需求,LightCounting 预测,硅光模块有望在 2025 年高速光模块市场中占据60%以上份额。
多家厂商也开始大力研发用于数据中心的硅光模块,如新华三发布 51.2T 800G CPO硅光数据中心交换机,单芯片带宽51.2T,支持64个800G端口,支撑 3.2万台节点单个 AIGC 集群,单位时间内 GPU 运算效率提升 25%, 硅光+液冷技术融合实现单集群 TCO 降低30%,满足大模型智算网络高吞吐、低时延、绿色节能需求!

图8 以太网转发芯片演进
关键技术 4:RDMA
RDMA(Remote Direct Memory Access)是一种远程直接数据存取技术,可以有效降低多机多卡间端到端通信时延,满足智算网络的低时延、大带宽需求。
当前 RDMA 技术主要采用的方案为 InfiniBand和 RoCEv2 两种。InfiniBand 网卡在速率方面保持着快速的发展,主流 200Gbps、400Gbps 已规模商用。
当前用于大模型训练的智能算力节点内部大多采用 InfiniBand 技术构建数据中心内高性能网络,提供高速连接,以及微秒级的时延、无丢包,避免GPU计算等待数据传输导致算力效率的下降。
目前InfiniBand 技术为英伟达独家控制,成本偏高、开放性较弱,因此业界也在考虑用RoCEv2等无损网络技术替代 InfiniBand 技术,但存在配置复杂、支持万卡规模网络吞吐性较弱等问题。

图 9 InfiniBand 和 RoCEv2 的技术对比
关键技术 5:DDC
传统 CLOS 网络架构面临多级转发导致时延高、设备低缓存、易丢包等挑战,目前业界主要围绕优化 CLOS 架构、DDC 等开展研究(一)云商普遍采用多轨道流量聚合优化面向大模型训练的三层CLOS 架构,确保在大规模训练时集群的性能和加速比。
在多轨道网络架构中,大部分流量都聚合在轨道内传输(只经过一级 ToR switch)小部分流量跨轨道传输(需要经过二级switch),让任一同号卡在不同机器中的通信中的跳步数尽可能少,大幅减轻了大规模下的网络通信压力。

图 10 多轨道流量聚合
(二)AT&T、博通推出 DDC(Disaggregated Distributed Chassis)架构,支持 AI超大规模集群弹性部署。
DDC 将传统软硬一体的框式设备组件进行拆解,使用若于个低功耗盒式设备组成的集群替换框式设备业务线卡和网板等硬件单元,盒式设备间通过线缆互联。
整个集群通过集中式或者分布式的NOS(网络操作系统)管理,以软件化的方式灵活部署于任何一台标准服务器或多台服务器,能有效节省部署成本,提升系统几余性和可靠性。
DDC架构简单,支持弹性扩展和功能快速迭代、更易部署、单机功耗低,可以根据AI 集群大小来灵活选择。
基于 V0Q+Ce11 机制实现端到端流量调度,充分利用缓存大幅减少丢包,且解决了 ECMP 策略下流量负载不均衡的问题,能有效提升宽带利用率。
但由于 DDC硬件要求专用设备、大缓存设计增加网络成本等问题,目前可交付的 DDC产品较少,有待进一步优化。

图 11 DDC 架构
关键技术 6:并行计算
智算在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有 40%左右。
随着大模型规模的增长,需要考虑千卡甚至万卡规模的 GPU 集群训练,在多个GPU 上进行并行计算,将训练任务分解为多个子任务并同时训练,以提升训练速度和效率。
针对大规模并行计算的特点,数据并行、模型并行、流水并行、混合专家、增量更新等系列优化算法和技术有效提升了算法的运行效率和并发性能以及算力的资源利用率,支撑更高更复杂的训练速度和效率。
当前业内普遍采用多种并行方式联合优化的策略,如在机内做张量并行,同时配合数据并行进行分组参数切分操作,在多组机器组成流水线并行,以此来承载千亿甚至万亿的模型参数。
关键技术 7:液冷
AI服务器的功率较普通服务器高6-8倍,通用型服务器原来只需要 2颗 800W服务器电源,而AI服务器的需求直接提升为4颗 1800W高功率电源,当前商汤、阿里等高性能 AI服务器已达到 25kw 以上而风冷空调的极限在 25-30kw"。
传统风冷面临散热不足、能耗严重的问题,液冷技术成为了降低数据中心 PUE 的优解,其在 15kw/柜以上时更具经济性优势。
(来源AI云原生智能算力架构)



