开源实践联盟通信 2021年 11月10日

数据与基础设施:AI项目失败两大诱因

很遗憾,大部分AI模型从未被投入实际生产,意味着这些在基础设施层面的投入白白打了水漂,企业在构建及部署AI模型方面面临不小的挑战。

尽管投入大量资源,但仅有不足半数AI模型能够投入生产。为了摸清造成这种窘境的原因,Run:AI委托开展了首轮AI基础设施现状调查。本次调查面向来自十个国家的211名数据科学家、AI/机器学习/IT从业者及系统架构师,他们主要来自员工超过5000人的规模企业,但也包括部分来自初创企业和超大型跨国集团。

统计数据也证实了这一基本判断:77%的受访者表示他们的大部分AI模型从未投入过正式使用;甚至有五分之一的受访者给出了更低的答案,称全部模型中只有10%能够介入生产环境。

报告中的其他发现则给出了具体解释。例如,只有17%的AI厂商能够对昂贵的AI资源进行高效利用;22%的AI解决方案开发者表示,他们的基础设施大多处于闲置状态,这是因为超过三分之一的受访者需要手动访问GPU资源,而且硬件加速器的静态分配机制也严重限制了他们的工作效率。

AI领域已经吸纳了巨量成本:38%的受访者表示所在公司单单在AI基础设施,包括硬件、软件与云开销方面就开出了超过100万美元的年度预算;更有15%的受访者表示所在公司的年度AI基础设施投入超过1000万美元。还有74%的受访者称公司计划在短期之内增加GPU容量或AI基础设施支出。

调查发现,AI工作者们面临的最大挑战集中在数据层面。61%的受访者表示数据收集、数据清洗与治理等环节存在问题。42%的受访者强调所在公司的AI基础设施与算力水平达不到要求。除开数据与基础设施这两大核心要素,紧随其后的挑战为模型开发及训练时间过长、模型引用量过大,占受访者中的24%。

调查还强调了云计算在AI领域的作用,53%的受访者表示他们的AI应用程序及基础设施位于云端,34%受访者表示计划在未来几年向云端迁移。容器已经成为运行AI工作负载的标准基础设施选项,80%的受访者表示他们已经在某些AI工作负载中使用容器技术,49%的受访者表示他们的大部分乃至全部AI负载都运行在容器之内。在编排方面,Kubernetes一马当先、获得42%的支持率,另有16%的受访者表示计划使用这套流行的容器编排解决方案。紧随其后的是Red Hat Openshift,有13%的用户正在使用、6%的受访者有意试用。

Run:AI公司联合创始人兼CEO Omri Geller表示,“除了基础设施层面的数百万美元投入之外,对AI抱有兴趣的企业还需要再准备几百万美元招纳高水平的AI员工。但很遗憾,大部分AI模型从未被投入实际生产,意味着这些投入白白打了水漂。我们的调查显示,大量基础设施处于闲置状态、引发严重的资源浪费;数据科学家被迫手动访问GPU资源;而且云迁移之旅也仍在推进当中。总之,谁能率先把自己的模型投入生产并获得实效,谁就能在这场AI竞赛当中占据领先。”

《数字化转型方略》杂志 《数字化转型方略》杂志