创新方案案例奖
2024年度数字化转型创新案例奖
中国移动通信集团湖北有限公司智算运维方案
背景说明:
中国移动通信集团湖北有限公司(简称湖北移动)在武汉建设中国移动智算中心(武汉),为全国首个区域型N节点,需在2024年实现千亿次训练的目标。该项目是移动集团交付的首个智算项目,旨在支持人工智能计算平台建设,聚焦人工智能算力高地、技术自主研发创新、赋能传统产业等重大需求;通过人工智能计算平台,带动上游芯片产业以及下游更多传统产业应用创新,打造集高性能AI算力、大规模AI算法、开放式AI服务于一体的人工智能产业价值链核心枢纽与人工智能产业完整生态体系基础载体,最终推动人工智能高地和全球有影响力的创新中心建设。
解决方案:
为应对智算解决方案落地带来的ICT运维挑战,帮助运维团队打破传统ICT运维思维和服务模式,湖北移动携手新华三集团,共同打造中国移动通信集团湖北有限公司智算运维方案,形成集ICT基础设施服务、算力服务、模型训练推理服务等智算综合服务支撑的一站式运维服务团队。
明确运维架构:由集团总部、省公司、云能力中心建立部省专协同运维团队、共同开展智算中心运维,打造一体化团队矩阵式运维模式。
统一运维门户:移动云4A管控平台、智维平台门户、智算管控平台、集团多云平台、运维管理系统、英伟达UFM、H3C HDM等多个门户管理平台拉通管理。
细化运维工作:机房/硬件现场管理、资源/应急管理、故障/工单管理故、投诉/业务支撑、客户管理、安全管理等进行精细化管理。
运维赋能培训:选拔20名员工,由新华三配合湖北移动组织开展为期两个月的《智算专业基础理论+实践》培训,提升自有人员智算运维能力,为后续智算中心的体系化运维做好人才储备。
运维技术域兜底:通过新华三在智算项目中沉淀的运维经验及成才储备,为移动智算运维提供技术兜底保障,确保疑难问题快速解决闭环。
运维自动化:梳理常见故障派单规则,故障场景与告警关联,并通过移动云4A管控平台、移动云4A管控平台疏通流程,通过硬件告警平台、IB网络管理工具等自动发现问题并生成工单,实现问题发生、发现到处理的快速闭环。
明确运维管理规范:加强机房管理,保障机房内设备的安全、稳定运行,责任到人,保障机房运行安全和工作效率。明确各项工作的具体步骤和要求,使日常管理工作有章可循,有据可依。建立健全的机房安全管理制度,对机房内的设备进行定期维护和检查,及时发现设备故障和隐患,做好备份和恢复工作,保障信息系统的安全、稳定和高效运行。