行到AI“降本”处,坐看“阿里云”起时
过去的很长一段时间里,AI在人们心中就像是天上的星星,它被赋予了远远超出其本身能力期待,人人都以为万物智能的时代触手可及。现在,企业开始更加理性地看待AI和数据的能力。
在晴朗天空的夜晚,抬起头,我们总能看到点点星辰挂在幽暗的天空中。伸出手,就好像能抓住一捧闪亮的星星。
过去的很长一段时间里,AI在人们心中就像是天上的星星,它被赋予了远远超出其本身能力期待,人人都以为万物智能的时代触手可及。
然而,现实在美丽的星空前遮上了厚厚的乌云——自2020年下半年以来,芯片缺货成了全球科技行业头上的一把达摩克里斯之剑。AI产业链也由于缺货造成了不同程度的产品价格上涨。再加上AI从研发到落地部署都需要巨额成本的投入,且大量的算法在应用落地上并不顺利。疫情之下,企业也逐步理性地看待AI和数据的能力。
企业在面对AI上,已经开始追求更加务实的效益目标。阿里云智能AI产品总监黄博远认为,相比过去对规模效益的追求,企业更注重于 AI能为实际业务带来的成果和转化,更加关注计算效率和资源成本,这也促进了优化技术在市场上的广泛应用。
阿里云智能AI产品总监黄博远
如何降本增效,成为企业在面对AI时最关注的问题。
AI成本从何而来?
随着云计算、异构计算、融合智算的发展,计算结合AI与大数据,开始展现更加强大的能力。为了提高深度学习模型的性能,科学家就需要构建更大的模型,使用更多的数据对其进行训练,这其中的成本是大多数人无法想象的。在黄博远看来,具体体现在以下三个方面。
首先是资源成本。硬件,尤其是异构计算、高性能网络和高吞吐的存储,价格非常昂贵,如果软硬件配合不好,会造成大量的浪费。马萨诸塞大学阿默斯特分校的研究人员通过测量训练过程中常用硬件的功耗,估算了开发人工智能语言模型的能源成本。他们发现,训练一次 BERT 的碳足迹相当于一名乘客在纽约和旧金山之间飞一个来回。
机器学习智库OpenAI斥资400多万美元,设计并训练了深度学习语言系统GPT-3。尽管研究人员在操作中犯了一个错误,但他们并没有修复它,仅仅在论文附录中简要解释道:“由于高昂的训练成本,对模型重新训练是不现实的。”
第二是人才成本。现在越来越多的传统行业开始利用AI解决其实际问题,这个过程需要大量的复合型人才,既懂技术,又懂业务。这就需要通过技术、产品能力提升这些人才创造业务价值的效率,阿里云灵杰提供的大数据AI一体化平台就是解决人员效率的利器。
第三是知识成本。人才不仅仅是一个简单的成本问题,企业在难以找到适配人才的情况下需要提升培养人才的效率,让人员快速掌握跨领域知识,让非专业人员变得更专业。例如,通过机器学习PAI平台,可以让普通的AI工程师利用优化框架,写出更高效的多机多卡并行训练任务,提高效率的同时减少试错。
显然,AI的成本问题,算力是症结之一,也是破局突破口。通过算力集群的规模化,降低单位算力成本,是一条清晰的、具有一定可行性的道路。
可以说云计算通过弹性及优化能力,真正做到资源招之即来、挥之即去、高效利用,大大地解决了AI算力成本的问题。
云计算扮演了什么角色?
云计算见证了互联网行业的高速发展和迭代,如今“高质量上云”的趋势,将为互联网行业带来二次腾飞的资源红利、数据红利以及管理红利的增长新动能。
云计算本身提供了一种极致的弹性,能够大幅提升大家使用资源的性价比。同时,云服务提供了涵盖了从软件、网络、存储优化,到框架、平台软件等一整套端到端的协同优化能力。企业可以借助云计算随时随地按需灵活扩缩容,进而提升算力效率、降低AI研发成本,基础设施及平台层的运维等问题也可以交由更专业的云厂商处理。
这让企业在AI领域模型越演进越复杂,算力需求越来越强的大背景下,可以扬长避短,充分利用市场上已有的技术红利去自我赋能,提升自身业务迭代效率。
以阿里云为代表的国内互联网云厂商,早已提前布局,并将这一系列技术对外服务。
据黄博远介绍,AI是阿里云最为重要核心投入领域之一。早在2021杭州云栖大会上阿里云计算平台就发布大数据+AI一体化平台新品牌“阿里灵杰”,提供从“采集-存储-分析-开发-训练-推理-服务-治理-价值体现”整套云原生技术架构和产品体系,配套智能化运维平台和强大的数据资产安全管控能力。
依托阿里云领先的基础设施、大数据和AI工程能力、场景算法技术和多年行业实践,一站式地为企业和开发者提供云原生的AI能力体系。帮助提升AI应用开发效率,促进AI在产业中规模化落地,激发业务价值。
黄博远认为,大数据+AI是核心技术创新的土壤,是链接客户业务与云基础设施核心技术能力的桥梁,是为客户创造场景化业务价值驱动力。从AI的基础设施,到底层框架、开发平台、上层应用以及开放生态等几个角度,阿里云以及达摩院都在持续加大对AI的投入。
拨开乌云,见阿里云
AI计算是一个非常复杂的工程问题,会涉及到异构硬件(最熟悉的就是GPU)、网络、存储,再到框架以及上层的算法。阿里云最新发布的全栈智能计算解决方案飞天智算平台提供公共云和专有云两种模式,为各类科研和智能企业机构提供强大的智能计算服务。据黄博远介绍,飞天智算平台重点从三个层面解决企业各种使用AI过程汇总的问题。
首先,飞天智算平台提供了软硬一体联合优化的能力。通过软硬一体,将计算、网络、I/O访问结合AI Framework的特点、机器学习/深度学习的计算特点,进行联合优化,大幅提升AI分布式训练以及推理的性能/性价比。而性价比则决定了AI被广泛使用门槛,规模和性价比相辅相成、缺一不可。
其次,飞天智算平台提供了大数据、AI一体化平台。平台能够大幅提升产业链上各种参与人员的工作效率。“人才往往是比机器资源本身更加昂贵的资源。”黄博远表示。
第三,飞天智算平台提供了大量上层AI服务。在AI应用的过程中,有着大量的开发人员,他们的核心诉求是使用某一项或某几项AI能力,对于这些能力本身是如何构建的,他们并不关心。阿里云依托阿里巴巴集团的众多业务、达摩院的核心算法能力以及作为云计算领域的领导者在众多行业中积累的经验和最佳实践,为广大的用户提供了一些列经过生产实践考验的AI能力,助力企业快速、高效使用AI能力。
此外,AI的部署不仅仅是简单的硬件成本,发布、运维、监控、稳定性等都会给企业带来更大的无形成本。通过机器学习PAI平台提供的EAS(弹性算法服务),企业可以一键将模型发布成在线服务,同时利用平台,轻松使用蓝绿部署、线上监控、反馈评估等能力。
阿里云提供了涵盖基础设施、平台、服务等全方位的AI相关服务,助力企业的数字化、数据化及智能化转型。除了标准的产品、服务之外,阿里云还提供了丰富的最佳实践。
在零售行业、金融行业、数字政府、企业数据中台、AI中台等各类场景中,阿里云都提供了丰富的实践案例。例如,小鹏汽车与阿里云合作,在乌兰察布建成中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”基于阿里云智能计算平台,算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏自动驾驶核心模型的训练速度提升了近170倍。
面向未来,黄博远表示,绿色、低碳发展,将促进AI平台全面提升效率。不论是在大规模计算、大模型生成、模型推理服务还是生态协作方面,全面提升算力的利用效率、框架的优化效率、数据使用效率,以及从业者的开发与学习效率,都将成为AI降本增效,长期发展的重要驱动力。
本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码