最新文章
AI芯片算力基础及关键参数

AI芯片算力基础及关键参数

AI芯片通常采用GPU和ASIC架构。GPU因其在运算和并行任务处理上的优势成为AI计算中的关键组件,它的算力和显存、带宽决定了GPU的运算能力。GPU的核心可分为CudaCore、Tensor Core等;Tensor Core是增强AI计算的核心,相较于并行计算表现卓越的Cuda Core,它更专注于深度学习领域,通过优化矩阵运算来加速AI深度学习的训练和推理任务

2024年AMD CPU和GPU技术进展

2024年AMD CPU和GPU技术进展

第二代XDNA NPU架构:XDNA NPU 2引入了全新的Block FP16 (BF16)浮点精度,其AI引擎性能是第二代 AMD 锐龙 AI 的三倍,是目前唯一可提供 50 TOPS 的AI 处理性能的产品。

服务器基础知识全解(终极版)

服务器基础知识全解(终极版)

2017年7月份,Purley的新一代服务器平台,Purley平台将产品型号命名方式由此前连续使用四代的E7/E5变为至强可扩展处理器(Intel Xeon Scalable Processor,SP),系列型号按铂金(Platinum)、金(Gold)、银(Silver)、铜(Bronze)定义

2024中国AI Agent研究综述

2024中国AI Agent研究综述

AI Agent(人工智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent具备通过独立思考、调用工具去逐步完成给定目标的能力。

VMware by Broadcom:虚拟化国产替换是否Ready?

VMware by Broadcom:虚拟化国产替换是否Ready?

过去两年中,VMware 一直在努力简化其产品组合,并从永久模式过渡到订阅模式,这种转变符合行业发展趋势,简化用户采购,更好地体现了采购成本与服务价值的关系。

2024年AI服务器和AI PC趋势

2024年AI服务器和AI PC趋势

国内数据中心建设较全球起步晚,目前处于云中心深化阶段,向智能算力中心转型,总体处于成长期。

超算系统突破316800个CPU核心,2560个GPU

超算系统突破316800个CPU核心,2560个GPU

Venado 在西班牙语中的意思是鹿或雄鹿,也是新墨西哥州 Sangre de Cristo 山脉的一座山峰的名称,这就是新机器得名的地方。正如您所预料的那样,Hewlett Packard Enterprise 是该系统的主要承包商,并且正如我们所预期的那样,该系统没有使用 Nvidia 为制造共享内存 GPU 的超级 Pod 而创建的 GPU NVLink Switch 共享内存互连。

深入理解鲲鹏处理器性能优化

深入理解鲲鹏处理器性能优化

在冯诺依曼架构下,计算机可以抽象为存储器、控制器、输入以及输出设备。存储器分为内部存储器和外部存储器,程序在未运行时存储在外部存储器中,而在运行时则是加载到内部存储器中进行各种运算和处理。

大模型变革:从云到端融合

大模型变革:从云到端融合

AI对云厂商资本开支需求的拉动始于2023年四季度,据一季度各大云厂商的资本开支及指引,预计2024年北美云商资本开支有望重回高速增长态势。

IB和RoCE智算网络差异分析

IB和RoCE智算网络差异分析

InfiniBand 和RoCEv2 这两种网络架构在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。

英伟达GPU:聚焦AI超大规模组网

英伟达GPU:聚焦AI超大规模组网

通过加快产品迭代,英伟达保持产品性能优势,且生成单个Token 功耗大幅降低。在各大 GPU 厂商新推出的产品中,英伟达 Blackwell在性能上高于 AMD 的 Instinct MI325X 和谷歌的 Trillium 芯片。

揭秘:“BBAT”万卡AI集群网络架构

揭秘:“BBAT”万卡AI集群网络架构

网络拓扑集群规模宏大,集成了超过10,000个GPU,依托一个精心设计的三层类CLOS网络架构实现高效互联。

详解英伟达Grace Hopper超级芯片架构

详解英伟达Grace Hopper超级芯片架构

NVIDIA Grace Hopper 超级芯片架构将 NVIDIA Hopper GPU 的开创性性能与 NVIDIA Grace CPU 的多功能性结合在一起,在单个超级芯片中连接了高带宽和内存相关 NVIDIA NVLink Chip-2-Chip (C2C) 互连,并支持新的 NVIDIA NVLink Switch System 。

一颗192核的Arm服务器CPU

一颗192核的Arm服务器CPU

2024 年初,我们当前一代云原生处理器系列看起来是这样的,AMD EPYC Bergamo 和 Ampere Altra Max 有两个 128 核选项。

从H100、GH200到GB200,英伟达如何构建 AI超级计算机SuperPod?

从H100、GH200到GB200,英伟达如何构建 AI超级计算机SuperPod?

NVIDIA DGX SuperPOD是下一代数据中心人工智能(AI)架构。旨在提供AI模型训练、推理、高性能计算(HPC)和混合应用中的高级计算挑战所需的计算性能水平,以提高预测性能和解决方案的时间。

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

大模型训练任务对于网络要求苛刻,34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显;

大模型场景下智算平台的设计与优化实践

大模型场景下智算平台的设计与优化实践

智算平台面临着前所未有的挑战和机遇。通过技术创新和持续优化,可以有效提升智算平台在大模型场景下的性能和稳定性,推动AI技术的快速发展。

算力硬件:算力调度与管理

文章讨论了系统软件研究的动力,强调了应用需求和硬件能力的重要性,并提到了算力硬件调度与管理的探索。文中还涉及了光网络技术、数据中心、CPU技术发展等内容,并提供了相关技术资料的获取方式。

新算力硬件:调度技术与挑战

新算力硬件:调度技术与挑战

算力需求爆发式增? vs. 算力硬件演进呈现领域化、规模化、异构化特征,应用的算力外需求驱动操作系统在调度机制上突破,新算力硬件体系对调度机制造成了多方面的挑战。

以太网:如何满足AI计算互联要求?

以太网:如何满足AI计算互联要求?

不同计算进程间数据共接收端,容易出现“受害者流量”。AI 推理集群必然会出现多个负载处理多个用户需求或多条并发请求的情况,不同负载由不同端口输出数据,传输路径上有共用的叶、脊交换机,则共接收端的“多传一”(Many-To-One)现象容易出现网络背压、拥塞传播甚至丢包。