2024 年初,我们当前一代云原生处理器系列看起来是这样的,AMD EPYC Bergamo 和 Ampere Altra Max 有两个 128 核选项。
NVIDIA DGX SuperPOD是下一代数据中心人工智能(AI)架构。旨在提供AI模型训练、推理、高性能计算(HPC)和混合应用中的高级计算挑战所需的计算性能水平,以提高预测性能和解决方案的时间。
大模型训练任务对于网络要求苛刻,34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显;
智算平台面临着前所未有的挑战和机遇。通过技术创新和持续优化,可以有效提升智算平台在大模型场景下的性能和稳定性,推动AI技术的快速发展。
文章讨论了系统软件研究的动力,强调了应用需求和硬件能力的重要性,并提到了算力硬件调度与管理的探索。文中还涉及了光网络技术、数据中心、CPU技术发展等内容,并提供了相关技术资料的获取方式。
算力需求爆发式增? vs. 算力硬件演进呈现领域化、规模化、异构化特征,应用的算力外需求驱动操作系统在调度机制上突破,新算力硬件体系对调度机制造成了多方面的挑战。
不同计算进程间数据共接收端,容易出现“受害者流量”。AI 推理集群必然会出现多个负载处理多个用户需求或多条并发请求的情况,不同负载由不同端口输出数据,传输路径上有共用的叶、脊交换机,则共接收端的“多传一”(Many-To-One)现象容易出现网络背压、拥塞传播甚至丢包。
用于连接 GPU 服务器中的 8 个 GPU 的 NVLink 交换机也可以用于构建连接 GPU 服务器之间的交换网络。Nvidia 在 2022 年的 Hot Chips 大会上展示了使用 NVswitch 架构连接 32 个节点(或 256 个 GPU)的拓扑结构。由于 NVLink 是专门设计为连接 GPU 的高速点对点链路,所以它具有比传统网络更高的性能和更低的开销。
根据中国信息通信研究院和分布式存储产业方阵的市场调研及分析,2021年中国分布式存储市场规模达到 178 亿元,年增长率达到 44%,高于中国企业级外置存储的 25%增长速度,预计未来 3 年中国分布式存储市场规模仍将保持40%以上的年增长。
机密计算,云计算中的当前方法处理静态数据和传输中的数据,但对使用中的数据进行加密被认为是为敏感数据提供完全加密的生命周期的第三步,也是最具挑战性的步骤。机密计算专注于保护使用中的数据,更多地从应用的角度出发。
目前,AIGC产业生态体系的雏形已现,呈现为上中下三层架构:①第一层为上游基础层,也就是由预训练模型为基础搭建的AIGC技术基础设施层。②第二层为中间层,即垂直化、场景化、个性化的模型和应用工具。③第三层为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。
Open AI的大型语言生成模型ChatGPT火热,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度。全球各大科技企业都在积极拥抱AIGC,不断推出相关技术、平台和应用。
一些 GPU 厂商(不是只有 NVIDIA 一家这么做)将将多个 DDR 芯片堆叠之后与 GPU 封装到一起 (后文讲到 H100 时有图),这样每片 GPU 和它自己的显存交互时,就不用再去 PCIe 交换芯片绕一圈,速度最高可以提升一个量级。这种“高带宽内存”(High Bandwidth Memory)缩写就是 HBM。
昇腾已经在华为云和28 个城市的智能算力中心大规模部署,根据财联社报道,2022 年昇腾占据国内智算中心约 79%的市场份额。
在当前人工智能技术飞速发展的背景下,其在包括自然语言处理、计算机视觉、自动驾驶系统、虚拟助手服务、推荐算法以及医疗诊断在内的众多前沿应用中发挥着至关重要的作用。随着AI应用的不断深化与升级,数据中心基础设施必须应对日益严苛的要求,特别是对于低延迟、高吞吐量网络的需求愈发迫切,以确保能够高效处理复杂且数据密集型的工作负载。
尽管AI芯片种类繁多,GPU因其适应性和强大的并行计算能力,仍是AI模型训练的主流硬件。英伟达在GPU领域的技术积累和生态建设使其处于领先地位,而国内GPU厂商虽在追赶,但仍存在差距。AI应用向云、边、端全维度发展,模型小型化技术成熟,数据传输需求增加,Chiplet技术降低设计复杂度和成本。
Nvidia在2023年投资者会议上展示了其GPU发展蓝图,计划在2024年推出H200和B100 GPU,2025年推出X100 GPU。其AI芯片更新周期从两年一次缩短至一年一次,体现产品开发速度加快。Nvidia的“One Architecture”统一架构支持不同环境下的模型训练和部署,适用于数据中心和边缘计算。同时,Nvidia的技术路线图包括HBM3E高速存储器、PCIE 6.0/7.0、NVLink、224G SerDes、1.6T接口等先进技术。
Universal Chiplet Interconnect Express (UCIe)(R) 是一个开放的行业互连标准,旨在实现芯片间的封装级互连,提供高带宽、低延迟的连接,适用于云端、边缘端、企业等多个计算领域。UCIe支持不同晶圆厂、设计和封装方式的Die集成,满足对算力、内存、存储和互连日益增长的需求。
HBM技术通过提升I/O口数量和速率,突破内存限制,成为AI芯片的强大辅助。HBM3和HBM3e将成为AI服务器主流配置,预计HBM4将于2026年发布。全球HBM市场预计在2024年超百亿美元。HBM采用TSV+Bumping和TCB键合方式,但散热效率低下,海力士引入MR-MUF工艺改善。预计HBM4将采用混合键合Hybrid Bonding技术,3D封装的核心是混合键合与TSV。