GPU集群 关键字列表
Llama-3公布基础训练设施,使用49,000个H100

Llama-3公布基础训练设施,使用49,000个H100

Meta宣布了两个新的24K H100 GPU集群,用于训练大模型Llama-3,预计4月末或5月中旬上线。集群使用RoCEv2网络和基于Tectonic/Hammerspace的存储解决方案,支持PyTorch。

并行科技陈健:超算架构大模型算力,买不如租!

并行科技陈健:超算架构大模型算力,买不如租!

大模型的训练需要大量的计算资源,企业的资金投入几十亿到上百亿,因此在算力投入上要特别谨慎。大模型的训练是个典型的超算场景,采用超算的方式对企业来说更具性价比。租用算力方式比自建方式能让企业风险更低、现金流更充裕。