数字化转型方略 第17期 2020/12/15

打通实验室到现实生活的“最后一公里”,英特尔的独家软件策略

文/李祥敬
软件在当下的重要性不言而喻,而软件也是英特尔六大技术支柱之一,通过创建统一的软件架构,全面覆盖从云到端的计算,为全新的硬件架构带来指数级的性能提升,发掘更多的潜力。

软件在当下的重要性不言而喻,而软件也是英特尔六大技术支柱之一,通过创建统一的软件架构,全面覆盖从云到端的计算,为全新的硬件架构带来指数级的性能提升,发掘更多的潜力。

英特尔架构、图形和软件集团副总裁兼中国区总经理谢晓清告诉记者,从软件生态来说,英特尔x86历经多年所打造的这样一个生态系统是我们x86平台最大的财富。

特别是英特尔推出的oneAPI能够支持异构计算的平台软件,释放最大的硬件潜能。同时oneAPI也使得软件生态中的开发者在软件方面的投资可以得到最大程度的复用,不需要绑定在单一的硬件架构上面,开发效率也可以得到最大化。

英特尔秉持的软件策略

英特尔构建了完整的系统软件堆栈,并与主流的操作系统厂商保持了紧密的合作。尤其是在开源软件方面,英特尔进行了很大的技术投入和技术储备,在开源社区进行了非常多的贡献。

而在虚拟化与云计算方面,英特尔积极参与OpenStack、Kubernetes等开源技术社区的建设,保证了这些应用可以充分利用英特尔硬件的功能。谢晓清说,英特尔的软件策略可以概括为三点:软件优先、易于扩展、全新的计算负载和用户场景。

具体来说,英特尔聚焦XPU异构计算,并在近日推出了全新的GPU产品,而GPU在图形、多媒体、计算方面都需要非常稳定的生态。而在计算方面,过去几十年英特尔在CPU的软件生态是其最大的资本,可以将把它们从CPU领域扩展到GPU领域,乃至到其他的异构计算领域。

英特尔在编程语言、系统库以及工具链方面已经有了非常强有力的生态支持。全新的GPU产品可以利用现有的软件生态作为基础实现快速发展。

在GPU市场,英特尔如果想最大限度得到GPU开发者的支持,就需要覆盖不同的细分市场。为此,英特尔实现了独立显卡和集成显卡的软件兼容,特别是oneAPI的推出让GPU的软件开发更加便利。

英特尔的的目标是性能至上,旨在发挥所有产品最大的硬件性能优势。oneAPI产品可以支持多样的异构计算的硬件,包括CPU和GPU,以后会支持其他的AI硬件加速以及FPGA等,帮助开发者进行快速有效的软件开发工作。

目前,oneAPI支持包括Hadoop、Spark、TensorFlow、PyTorch、PaddlePaddle、OpenVINO等AI工具包,方面AI应用开发商开发应用。

谢晓清表示,oneAPI提供给用户一个非常友好的编程环境,使得开发者可以自由选择硬件平台,不必要用某一种语言就必须绑定在某一个硬件平台上面。第二,oneAPI提供的编译器、系统都是高度优化,所以可以实现最大的硬件产能,并且最优支持不同异构计算的硬件加速。第三,oneAPI的开发模式非常快速、高效,并且源码的维护成本可以达到最低。

另外,在场景扩展方面,随着业务应用的多样化,英特尔重点发展新的计算负载和用户场景,更好地满足客户需求。

在不同的时代背景下,英特尔与不同的产业合作伙伴一起推动软件生态发展,比如PC时代,英特尔与微软等合作,软件工具能够覆盖百万级的软件开发者;在移动互联网和云计算时代,英特尔与谷歌的安卓、苹果的iOS、Linux社区等合作,开发者达到了千万级;进入人工智能时代,英特尔与Kubernetes、Kata Containers等开源社区以及云产品提供商、云服务提供商等合作。

例如在最新发布的英特尔Server GPU—SG1支持安卓云游戏的解决方案,依托强大的图形渲染能力以及多媒体编解码能力,利用独立GPU把云游戏的图形界面能够在云端直接渲染,并且利用流媒体的方式,把它编码之后直接发布到终端。这一方案目前有望在腾讯云上实现产品化。

此外,基于英特尔至强可扩展处理器和英特尔Server GPU服务器和虚拟化计算,英特尔中国团队和阿里巴巴天猫精灵团队紧密合作,短时间内完成云应用平台整体上线,实现云、边、端一体化,打造全新的客户体验。

AI从实验室进入现实生活

当前,AI已经进入到我们现实生活的方方面面,而对于在现实场景当中需要把这些AI落地的开发人员来说,最大的一个挑战是如何将AI算法应用到复杂的数据当中。去年6月,英特尔在中国成立大数据分析和人工智能创新院,加快统一的大数据分析和人工智能技术的创新和应用。

英特尔大数据技术全球CTO、大数据分析和人工智能创新院院长戴金权表示,数据洪流下,如何将AI可以直接应用到大数据的生产环境中,并且能够无缝进行大规模扩展成为调整。为此,Analytics Zoo应运而生。

现实生产环境面对大量复杂的生产数据,企业需要构建大数据平台对数据进行管理,而将AI技术运用到这些场景中,他们的一大痛点就是如何高效、无缝、可扩展地将AI算法应用到现有大数据平台,或者是现有的数据系统当中。

针对企业痛点,Analytics Zoo是英特尔开源的一个端到端的大数据+AI的软件平台,能够帮助用户可以直接无缝地将AI模型运行在分布式大数据上面。

现实中构建一个端到端的AI流水线并不容易,需要非常多的专业知识,比如机器学习、深度学习等。Analytics Zoo通过高级的机器学习的工作流可以将任务实现自动化。

Analytics Zoo面向非常多地应用场景,比如推荐系统、时间序列分析、计算机视觉以及自然语言处理等。戴金权还详细介绍了用户如何利用Analytics Zoo解决他们实际应用场景的问题。

在快餐推荐的场景下,用户实时的点餐行为和各种情景特征(比如时间、天气和位置等)都是能够被用来做合适推荐的重要因素。

当顾客开始点单,收银员把商品输入到订单当中时,希望能够构建一个模型,将这些点单的行为及相关信息收集起来,进行实时推荐。例如,当客户点了一个汉堡或者甜品后,是否需要再点薯条之类的零食。

汉堡王便进行了这种尝试,其利用Analytics Zoo提供的RayOnSpark功能,使用Ray、Apache Spark和Apache MXNet构建了一个完整的端到端的推荐系统,让顾客有更多地选择,更符合顾客的偏好选择。

推荐系统将数据处理(使用Spark)和分布式训练(使用MXNet和Ray )集成到一个统一的数据分析和AI流水线中,并直接运行在存储数据的同一个大数据集群上面。

在运营商中,基站的健康运行对于网络质量有着重要影响。作为韩国最大的电信公司,SK电信希望利用利用大量基站收集的KPI信息,作为一个时间序列可以预测网络质量进行异常告警。

SK电信构建了一个相对复杂的大数据平台,该平台分为两个集群,一个大数据集群,一个是GPU集群。两个不同的工作流对于开发部署非常不方便。

后来,SK电信与英特尔合作,将整个架构迁移到Analytics Zoo平台,直接在Spark集群上对数据进行处理,数据处理之后,可以直接利用Analytics Zoo将TensorFlow模型基于内存的数据来进行训练与推理,结果训练最高可以达到4倍的提升,推理上有3-6倍的性能提升。

此外,对于风能发电行业来说,有一个很大的挑战,有时候发电量很高,有时候发电量较低。当需要把风能发电接入到电网时会遇到阻碍,因为电网会要求非常稳定,至少要能很好地预见能输出多少电,或准确预测风电功率。

作为一个为风能发电厂提供智能运营的企业,金风慧能需要为行业用户提供一个部署更为便捷、预测更为精确的新一代智能功率预测方案。基于此,金风慧能与英特尔开展紧密合作,基于英特尔统一的大数据分析和AI平台——Analytics Zoo,金风慧能将方案中涉及的软件与框架无缝集成到同一管道中。

这一方法有助于金风慧能将数据存储、数据处理以及训练推理的流水线整合到统一的基础设施上,来大幅提升新方案的部署效率、资源利用率和可扩展性,并减少用于硬件管理及系统运维的成本。

同时,Analytics Zoo还提供了英特尔的众多底层软件加速库,比如英特尔MKL和英特尔MKL-DNN应用到上层功率预测方案的优化中去;并可将TensorFlow、Keras模型透明地扩展到大数据集群,使用户能更方便地在训练或推理方案中采用分布式架构,最终风电功率的准确率可以相比以前从59%左右提升到79%左右,不仅提高了风电功率预测准确率,同时也大大提高端到端训练的效率。

金风慧能与英特尔通过协作,不仅开发出了更为完善、高效和精确的全新智能功率预测方案,还已着手将它用于实践。来自金风慧能的数据统计表明,在风电场中引入这种更为高效的AI预测方案,能够帮助电力企业显著提升发电效率,为践行绿色环保的新能源理念提供强有力的支撑。

目前,英特尔的合作伙伴已经将Analytics Zoo嵌入到他们的产品或者内部应用当中,比如宝德利用Analytics Zoo的功能发布了AI推理一体机,像阿里云、腾讯云基于Analytics Zoo的技术或者开源平台融入公有云服务。

戴金权指出,“在人工智能时代,AI和数据分析是我们将来非常重要的一个应用场景。特别是在把AI和数据分析应用到现实生产系统当中,Analytics Zoo通过集成大量的机器学习、深度学习和大数据分析技术,以及英特尔提供了大量的底层加速库和优化框架,借助英特尔硬件平台,提高端到端的AI流水线运行效率和开发效率,让我们的用户和客户可以构建他们实际的应用场景。”

本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码

《数字化转型方略》杂志