创新方案案例奖

2024年度数字化转型创新解决方案奖

新华三智算运维服务方案

移动集团2023年启动全国智算中心建设,批准武汉为全国首个区域型N节点,需在2024年实现千亿次训练的目标,新华三集团承接了该智算项目整个参数网的硬件集成、调优工作。帮助客户搭建一个高性能、可靠稳定的GPU计算集群和算力无损网络,并基于该集群构建端到端的技术支持和服务支撑体系,以满足湖北移动对于人工智能计算资源的需求,并提供优质的服务和支持。

1、智算中心规划服务:

根据业务需求,设计高性能的系统架构,充分利用GPU和InfiniBand网络的优势。确定计算节点、存储节点和网络拓扑的布局和配置,优化训练性能和效率。识别潜在的数据处理和存储需求,确保数据管道和存储系统能够支持大规模数据集的高效处理和访问。确定操作系统、驱动程序和库文件的版本,确保与硬件兼容并满足性能需求。

2、智算中心设计服务:

对硬件配置与网络架构,优化电力供应和散热系统,集成软件与系统,并确保安全性设计和全面的测试与验证等给出详细的设计方案和实施方案。根据采购的GPU服务器规模,合理规划POD资源,包括GPU节点分布设计,GPU 算力设计,确保集群性能和成本的平衡。按照最佳实践设计InfiniBand网络拓扑结构,包括交换机配置、节点间连接和带宽分配。并根据硬件选择和配置适用于GPU计算的操作系统,优化系统性能。

3、硬件上架和安装服务:

确认并检查所有硬件设备的数量、型号和配置,包括GPU服务器、机架、网络交换机等。根据机房布局图和设计方案,规划设备的上架位置和布局方案,确保合理使用机房空间。并实施设备上架安装、网络连接、调试及测试工作。基础环境的系统和软件部署:基础架构相关的系统和软件部署工作,包括计算节点、网络、云平台、GPU集群管理、调度、监控、安全软件等的部署与配置。完成计算节点操作系统、驱动、CUDA Toolkit工具、集群管理工具、调度软件、监控及日志工具部署,并完成相关网络调试调优及安全加固工作;

4、系统测试和性能验证服务:

在智算数据中心安装部署完成后,为确保系统稳定性和性能达到设计要求,对GPU计算节点、InfiniBand网络、高性能存储系统的全面测试和性能评估。含GPU计算节点测试和性能验证、InfiniBand网络测试和性能验证、整体系统集成测试等,并对测试结果进行分析和优化。

5、驱动/CUDA版本评估和验证服务:

重点确保LLM(大型语言模型)在GPU计算节点上的高效运行。主要包括:安装GPU卡驱动,部署CUDA开发工具包,优化计算性能,集成开发工具和库,调整代码以充分利用CUDA的并行计算能力,实施混合精度训练,提高模型训练效率,执行单元测试和性能评估,确保模型在GPU上的稳定性和性能,这些任务将确保LLM在CUDA环境中的最佳性能和可靠性。

6、InfiniBand网络运维服务服务:

7*24响应网络故障报警,迅速定位和解决故障。并使用InfiniBand网络故障排查工具进行故障诊断。实时监测InfiniBand网络的带宽利用率、延迟和丢包率,收集和分析性能数据,发现潜在问题并采取措施解决。定期检查并升级InfiniBand网络设备的固件。制定固件升级计划,确保设备安全性和性能稳定性。

7、GPU卡检查和保障服务服务:

提供GPU卡全面运维服务,按照GPU卡的操作规范做好日常检查和维护,保证GPU卡的高可用和健康状态。针对不同的应用场景,优化CUDA运行时的配置参数,提升计算性能。响应GPU卡故障报警,迅速定位和解决故障。

©北京第二十六维信息技术有限公司版权所有.

京ICP备15039648号-7 京ICP证161336号 京公网安备 11010802021500号