2022年中国CPU行业市场规模达2003.45亿元,同比增长10%,2023年约为2160.32亿元。中商产业研究院分析师预测,2024年市场规模将增长至2326.1亿元。
2023 年全球 AI 服务器出货量逾120.8万台,同比增长超过37.7%。这家机构预测, 2024 年全球AI服务器整机出货量将达167.2万台,同比增长38.4%。台积电在Q1法说会上表示,AI需求的增长将以50%的 复合增长率持续至2028年,AI服务器需求增长也有望以较高速度持续至2028年。
电源管理芯片作为模拟芯片的重要组成部分,在2017-2022年,中国的市场规模有望从92.4亿美元增长至149.6亿美元,年均复合增速为10.12%。
x86指令集为了保持二进制的兼容性,即:上一代芯片的应用程序仍然能运行在下一代芯片中,使之前后系列的芯片成为一个“系列机”,扩展了许多新的指令,导致x86指令集的规模不断膨胀。
近日,GeekBench 6.2数据库里出现了一颗新的海光处理器,检测编号C86-4G,实际型号C86-3490,与现有8核心的C86-3350同样属于C86-3000系列,显然架构是相通的。
富士通的 Monaka 是一款巨大的 CoWoS 系统级封装 (SiP),它有四个 36 核计算小芯片,采用台积电的 N2 工艺技术制造,包含 144 个基于 Armv9 的增强型内核,这些内核以面对面 (F2F) 的方式堆叠在 SRAM 块顶部,使用混合铜键合 (HCB)。
AI 训练集群带来 GPU 互联需求,新增后端网络组网需求。AI 服务器比传统服务器新增 GPU 模组,GPU 模组通过对应的网卡与其他服务器或交换机互联,实现各节点之间的通信。因此相比传统网络架构,AI 服务器组网增加后端网络组网(Back End),增加了每台服务器的网络端口数量,拉动对高速交换机、网卡、光模块、光纤光缆等组件需求。
为了缩短训练时间,就需要采用多机多卡并行的方式,通过采用分布式训练技术,对模型和数据进行切分,进而并行加速,将训练市场缩短到周或天的级别。
以太网的起源可以追溯到 1973 年,梅特卡夫发明了基于 Aloha 网络的新系统,改进了 Aloha 可随意访问共享通信信道的机制,能够把任何计算机连接起来,实现计算机之间的数据传输,该系统被其命名为以太网。
在高性能GPU计算的领域内,关键组件如CPU、内存模块、NVMe存储设备、GPU以及网络适配器等通过PCIe(外设部件互连标准)总线或专门设计的PCIe交换机芯片实现高效顺畅的连接。
AI服务器产业链上游为零部件,包括CPU、GPU、存储芯片、固态硬盘、PCB、被动元器件等;中游为AI服务器;下游为各类应用市场,包括互联网企业、云计算企业、数据中心服务商、政府部门、金融机构、医疗领域、电信运营商等。
Infiniband的协议采用分层结构,各个层次之间相互独立,下层为上层提供服务。其中,物理层定义了在线路上如何将比特信号组 成符号,然后再组成帧、 数据符号以及包之间的数据填 充等,详细说明了构建有效包的信令协议等;链路层定义了数据包的格式以及数据包操作的协议,如流控、 路由选择、 编码、解码等;网络层通过在数据包上添加一个40字节的全局的路由报头(Global Route Header,GRH)来进行路由的选择,对数据进行转发。
AIDC的基本架构可以划分为多个层次和组成部分。在总体架构上,AIDC可以被划分为基础设施层、平台管理层、大模型开发平台层,以及行业应用层,如图所示。
GPU应用已深刻影响各类业务(搜广推、音视频、MMU、风控等)场景,快手内部GPU在线服务及离线训练任务均完成云原生化迁移。
2023年中国信创产业规模达20961.9亿元,2027年有望达到37011.3亿元,中国信创市场正释放出前所未有的活力。数据显示,2024年中国国产PC整机市场规模将达5182.3亿元,中国协同办公市场规模将达370.7亿元。
GPU主宰算力芯片,Al信创驱动国产算力发展:得益于硬件支持与软件编程、设计方面的优势,CPU+GPU成为了目前应用最广泛的平台。Al分布式计算的市场主要由算力芯片(55-75%)、内存(10-20%)和互联设备(10-20%)三部分组成。
Al芯片是AI服务器算力的核心,专门用于处理人工智能应用中的大量计算任务,Al芯片按架构可分为GPU、FPGA、ASIC和NPU等。HBM作为内存产品的一种,已经成为高端GPU标配,可以理解为与CPU或SoC对应的内存层级,将原本在PCB板上的DDR和GPU芯片同时集成到SiP封装中,使内存更加靠近GPU,使用HBM可以将DRAM和处理器(CPU,GPU以及其他ASIC)之间的通信带宽大大提升,从而缓解这些处理器的内存墙问题。
TPU 的设定,只能在 TensorFlow 中执行推理,但它的性能非常好。我们认为,TPU 与 TensorFlow 的良好适配,能够发挥出 1+1>2 的效果。深度学习计算中的芯片部署都不是零和博弈。现实世界的深度学习网络需要系统的 GPU 与其他 GPU 或诸如 Google TPU 之类的 ASIC 通信。GPU 是理想的工作环境,具有深度学习所需的灵活性