最新文章
一颗192核的Arm服务器CPU

一颗192核的Arm服务器CPU

2024 年初,我们当前一代云原生处理器系列看起来是这样的,AMD EPYC Bergamo 和 Ampere Altra Max 有两个 128 核选项。

从H100、GH200到GB200,英伟达如何构建 AI超级计算机SuperPod?

从H100、GH200到GB200,英伟达如何构建 AI超级计算机SuperPod?

NVIDIA DGX SuperPOD是下一代数据中心人工智能(AI)架构。旨在提供AI模型训练、推理、高性能计算(HPC)和混合应用中的高级计算挑战所需的计算性能水平,以提高预测性能和解决方案的时间。

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

大模型训练任务对于网络要求苛刻,34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显;

大模型场景下智算平台的设计与优化实践

大模型场景下智算平台的设计与优化实践

智算平台面临着前所未有的挑战和机遇。通过技术创新和持续优化,可以有效提升智算平台在大模型场景下的性能和稳定性,推动AI技术的快速发展。

算力硬件:算力调度与管理

文章讨论了系统软件研究的动力,强调了应用需求和硬件能力的重要性,并提到了算力硬件调度与管理的探索。文中还涉及了光网络技术、数据中心、CPU技术发展等内容,并提供了相关技术资料的获取方式。

新算力硬件:调度技术与挑战

新算力硬件:调度技术与挑战

算力需求爆发式增? vs. 算力硬件演进呈现领域化、规模化、异构化特征,应用的算力外需求驱动操作系统在调度机制上突破,新算力硬件体系对调度机制造成了多方面的挑战。

以太网:如何满足AI计算互联要求?

以太网:如何满足AI计算互联要求?

不同计算进程间数据共接收端,容易出现“受害者流量”。AI 推理集群必然会出现多个负载处理多个用户需求或多条并发请求的情况,不同负载由不同端口输出数据,传输路径上有共用的叶、脊交换机,则共接收端的“多传一”(Many-To-One)现象容易出现网络背压、拥塞传播甚至丢包。

GPU/TPU大集群组网技术分析

GPU/TPU大集群组网技术分析

用于连接 GPU 服务器中的 8 个 GPU 的 NVLink 交换机也可以用于构建连接 GPU 服务器之间的交换网络。Nvidia 在 2022 年的 Hot Chips 大会上展示了使用 NVswitch 架构连接 32 个节点(或 256 个 GPU)的拓扑结构。由于 NVLink 是专门设计为连接 GPU 的高速点对点链路,所以它具有比传统网络更高的性能和更低的开销。

中国分布式存储产业未来空间广阔(2024)

中国分布式存储产业未来空间广阔(2024)

根据中国信息通信研究院和分布式存储产业方阵的市场调研及分析,2021年中国分布式存储市场规模达到 178 亿元,年增长率达到 44%,高于中国企业级外置存储的 25%增长速度,预计未来 3 年中国分布式存储市场规模仍将保持40%以上的年增长。

Computex 2024:英伟达AI路线及战略分析

Computex 2024:英伟达AI路线及战略分析

近二十年来,英伟达一直在研究加速计算,可以增强CPU,加速专门处理器可以做得更好的工作。

鲲鹏芯片及通用机密计算平台技术

鲲鹏芯片及通用机密计算平台技术

机密计算,云计算中的当前方法处理静态数据和传输中的数据,但对使用中的数据进行加密被认为是为敏感数据提供完全加密的生命周期的第三步,也是最具挑战性的步骤。机密计算专注于保护使用中的数据,更多地从应用的角度出发。

AI算力产业链及竞争格局分析

AI算力产业链及竞争格局分析

目前,AIGC产业生态体系的雏形已现,呈现为上中下三层架构:①第一层为上游基础层,也就是由预训练模型为基础搭建的AIGC技术基础设施层。②第二层为中间层,即垂直化、场景化、个性化的模型和应用工具。③第三层为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。

AI服务器产业链及竞争格局分析
2024-04-16

AI服务器产业链及竞争格局分析

Open AI的大型语言生成模型ChatGPT火热,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度。全球各大科技企业都在积极拥抱AIGC,不断推出相关技术、平台和应用。

高性能GPU服务器硬件拓扑与集群组网

高性能GPU服务器硬件拓扑与集群组网

一些 GPU 厂商(不是只有 NVIDIA 一家这么做)将将多个 DDR 芯片堆叠之后与 GPU 封装到一起 (后文讲到 H100 时有图),这样每片 GPU 和它自己的显存交互时,就不用再去 PCIe 交换芯片绕一圈,速度最高可以提升一个量级。这种“高带宽内存”(High Bandwidth Memory)缩写就是 HBM。

国内AI算力:昇腾一马当先,各家竞相发展
2024-04-09

国内AI算力:昇腾一马当先,各家竞相发展

昇腾已经在华为云和28 个城市的智能算力中心大规模部署,根据财联社报道,2022 年昇腾占据国内智算中心约 79%的市场份额。

InfiniBand与RoCE对比分析:AI数据中心网络选择指南

InfiniBand与RoCE对比分析:AI数据中心网络选择指南

在当前人工智能技术飞速发展的背景下,其在包括自然语言处理、计算机视觉、自动驾驶系统、虚拟助手服务、推荐算法以及医疗诊断在内的众多前沿应用中发挥着至关重要的作用。随着AI应用的不断深化与升级,数据中心基础设施必须应对日益严苛的要求,特别是对于低延迟、高吞吐量网络的需求愈发迫切,以确保能够高效处理复杂且数据密集型的工作负载。

走进芯时代:AI算力GPU芯片分析

尽管AI芯片种类繁多,GPU因其适应性和强大的并行计算能力,仍是AI模型训练的主流硬件。英伟达在GPU领域的技术积累和生态建设使其处于领先地位,而国内GPU厂商虽在追赶,但仍存在差距。AI应用向云、边、端全维度发展,模型小型化技术成熟,数据传输需求增加,Chiplet技术降低设计复杂度和成本。

Nvidia AI芯片路线图分析与解读

Nvidia在2023年投资者会议上展示了其GPU发展蓝图,计划在2024年推出H200和B100 GPU,2025年推出X100 GPU。其AI芯片更新周期从两年一次缩短至一年一次,体现产品开发速度加快。Nvidia的“One Architecture”统一架构支持不同环境下的模型训练和部署,适用于数据中心和边缘计算。同时,Nvidia的技术路线图包括HBM3E高速存储器、PCIE 6.0/7.0、NVLink、224G SerDes、1.6T接口等先进技术。

HotChips 2023:UCIe协议和技术

Universal Chiplet Interconnect Express (UCIe)(R) 是一个开放的行业互连标准,旨在实现芯片间的封装级互连,提供高带宽、低延迟的连接,适用于云端、边缘端、企业等多个计算领域。UCIe支持不同晶圆厂、设计和封装方式的Die集成,满足对算力、内存、存储和互连日益增长的需求。

HBM研究框架:突破“内存墙”,封装新突破

HBM技术通过提升I/O口数量和速率,突破内存限制,成为AI芯片的强大辅助。HBM3和HBM3e将成为AI服务器主流配置,预计HBM4将于2026年发布。全球HBM市场预计在2024年超百亿美元。HBM采用TSV+Bumping和TCB键合方式,但散热效率低下,海力士引入MR-MUF工艺改善。预计HBM4将采用混合键合Hybrid Bonding技术,3D封装的核心是混合键合与TSV。