数字化转型方略 第9期 2019/08/12

云计算时代,硬件为什么仍然非常重要?

越来越多的IT经理也有同感。60多年来,处理器、内存、存储、以及其他由金属和硅制成的组件决定了计算机的潜力和局限性。IT部门的核心作用一直是保护和优化这些宝贵的资产,系统管理员和维护人员保持数据中心的运转。

加利福尼亚大学圣迭戈分校采用了“云优先”的战略,他们淘汰了三台大型机、将尽可能多的计算工作负载转移到云端、尽可能放弃内部部署软件,转而使用软件即服务。

加利福尼亚大学圣迭戈分校的首席信息官Vince Kellen说:“我很久以前就意识到,CIO们更多地应该是供应链领导者,而不是整天关注硬件规格。对于我们大多数的业务问题来说,硬件并不重要。”

越来越多的IT经理也有同感。60多年来,处理器、内存、存储、以及其他由金属和硅制成的组件决定了计算机的潜力和局限性。IT部门的核心作用一直是保护和优化这些宝贵的资产,系统管理员和维护人员保持数据中心的运转。

大约20年前,虚拟化技术实现了硬件细节的抽象,让基础设施成为由软件管理的单一实体。过去10年,云计算进一步推动了这一进程,使硬件成为一种抽象资源,而且对于客户来说,这个资源越来越多地由别人来管理。

但令人惊讶的是,云实际上正在释放大量新的硬件创新,从作为所有计算机和云构建基础的芯片开始。

“这个时代实际上是半导体的黄金时代,”可编程逻辑电路和软件公司Xilinx总裁兼首席执行官Victor Peng在最近由硅谷思想领袖论坛Churchill Club举办的 “The Renaissance of Silicon”活动上这样表示。芯片制造商Micron总裁兼首席执行官Sanjay Mehrotra补充说:“在过去的40年里,从未有过现在这么更让人激动的时刻。”

但远不止是芯片。人们普遍认为,云基础设施提供商把硬件视为一种商品,通过无限可扩展的构建块以低成本、菊花链的方式连接在一起,并由复杂的软件进行管理。“对IT经理来说,基础设施就像是宠物。而对云厂商来说,云就是一种家畜,”Wikibon高级分析师Stu Miniman这么说。

但云也带来了一些单靠软件无法解决的棘手问题,这促使云提供商投资数十亿美元在基于硬件的解决方案上,来应对远程基础设施的局限性。

云本身存在延迟方面的缺点,以及从云存储中传输大量数据所涉及的延迟,这是推动基于硅芯片的网络加速投资的因素之一。云计算推动物联网的兴起,引发了网络边缘新型低功耗设备的发展。

最重要的是,基于云的人工智能技术(如机器学习和深度学习)的普及,正在推动着对硬件架构的投资,以满足这些应用对处理能力和内存的需求。

Pund-IT首席分析师Charles King认为:“如果没有硬件方面的进步,那些我们认为理所当然的事情,例如即时启动的电脑、智能手机、令人惊叹的游戏视频、超快速的内存数据库、大容量存储系统等等,都会面临各种局限性,或者成本极高。”

“自从我开始工作以来,人们就说,硬件已死,”Wikibon首席分析师David Vellante说。 “直到现在这个预测也没有变成现实。”

从本质上讲,硬件重不重要不是关键,关键的是硬件用在哪。

硬件的大规模迁移

结果就是,硬件考量因素正在逐渐从用户转移到后端基础设施——也就是现在的云。这对很多IT经理来说还好。

Advanced Disposal Services是一家废弃物处理、回收和再循环公司,该公司CIO DougSaunders表示:“我们的五年计划是将几乎一切都放在云端,我不想操心硬件方面的问题。”

这位拥有20年IT经验的资深人士表示,安装、调整和保护服务器不仅占满了他全部的工作时间,而且这个过程从初始订单开始可能需要三个月的时间。“你总会听到说IT速度太慢,其中一个原因就是硬件。”

软件定义管理的吸引力很大,甚至内部硬件制造商也不再强调时钟速度、CPU核心数和存储容量等规格了,而是突出便捷性和易于管理等特性。

HPE软件定义和云计算营销总监Lauren Whitehouse表示,大多数客户对于汽车中的汽缸数量或者发动机缸体尺寸并不关心,他们希望计算机也是如此。“他们也许不想管理计算机,但他们关心结果。”她指出,HPE的超融合和可组合式产品增长很快,这些产品避免了硬件管理中的很多细节工作。

戴尔最近推出的云平台“通过独特的方法,帮助客户满足混合云的需求......跨内部、边缘和公有云提供一种更简单、具有一致性的操作和软件基础设施,” Dell EMC服务器和基础设施系统产品管理高级副总裁Ravi Pendekanti这样说道。

对于IT部门而言,这是一个意外的收获,以前IT部门会聘用大量技术人员来负责安装和配置硬件,聘用管理员来调节性能并优化利用率。而今天,这些工作岗位正在被以服务水平管理、合同和云调度等方面的职位所取代。根据Statista的数据显示,全球企业IT运营人员支出预计将从2015年的3150亿美元降至2026年的1420亿美元。

Hyperion Research研究和技术副总裁Bob Sorensen表示,即使在实验室和学术机构等高性能计算设备的用户群中,“也有越来越多的工程师是与硬件无关的,他们更喜欢在虚拟环境或者容器中启动和运行”。

最重要的是,“IT经理不用再把时间花在机架堆叠和调节各种按钮的工作上,而是通过软件管理一切,” Wikibon的Miniman这样说。

摩尔定律的终结

但是,让硬件对于用户是透明的这一诉求正在推动着芯片背后的大量工作,其中一个原因是过去那些推动计算机和服务器性能的核心技术不再保持快速发展。几年前,磁盘驱动器达到了理论性能峰值,闪存存储器的速度提升也已经达到了收益递减的程度。

更根本的问题是,微处理器正面临发展壁垒。40多年来,基于X86架构的芯片每18到24个月的性能大约会翻一倍,这就是所谓的摩尔定律。然而,芯片的小型化遭遇了物理上的限制,使得发展速度放缓且成本越来越高。

简而言之,正如谷歌云计算机器学习基础设施产品管理高级主管Damion Heredia设施苏所说,“摩尔定律已死”。

通用微处理器“是为了运行很多不同类型的工作负载而生的”,但随着通用微处理器的增长逐渐转向专用计算工作负载如机器学习,导致“CPU无法提供解决这些问题的能力”。

这意味着计算机行业必须寻找其他方面的创新才能推动数十年来的增长势头。King表示:“硬件仍然很重要,只是硬件不同罢了。”

因此,图形处理器市场开始飞速发展,这种芯片广受机器学习软件应用的欢迎。根据Global Market Insights的预测,到2024年全球GPU出货量的年增长率将超过30%,收入达到800亿美元。

作为这个市场的领导者,Nvidia在去年10月受加密货币市场崩盘拖累之前的股价在两年里翻了两番。尽管如此,长期前景仍然强劲。

Nvidia企业和边缘计算解决方案高级总监Justin Boitano表示:“我们对外传递的一个重要信息就是,摩尔定律很大程度上已经结束,CPU级的计算性能达到了一个维持稳定的水平。”

不再强调微处理器

Nvidia和其他GPU制造商正在试图满足云厂商和系统制造商对新型硬件架构的需求,这种架构将不再强调微处理器性能,而是突出架构本身非常适合机器学习工作负载并行处理的需求。专门用于处理机器学习工作负载的机器会把大部分工作交给GPU,GPU会并行处理数据并将结果反馈给CPU,因此CPU的速度就不需要那么快。

对于某些工作负载来说,这种方法带来了性能上质的飞跃。人工智能初创公司OpenAI上周获得了微软10亿美元的巨额投资,该公司曾在去年预测,在2012年到2018年期间,OpenAI最大规模的人工智能训练中所使用的计算能力增长了30多万倍,3.5个月就翻一番的速度远远超过了摩尔定律的增长速度。

不仅仅是GPU,手机采用的低功耗、精简指令集计算Arm微处理器也在物联网设备甚至是AWS ECS实例中寻找新的用途。

英特尔和其他公司也把赌注投向了持久内存,这种新型内存会把存储的数据保留特性与DRAM的速度优势结合到一起。持久内存特别适合超大规模场景,这种技术证明了云计算带来硬件优先级上的变化。“这将是一项具有革命性的技术,”VMware云平台业务部首席技术官Kit Colbert这样说。

由于云计算企业正试图帮助那些将大量数据移入和移出云端的客户解决延迟和数据传输问题,因此市场对网络硬件的兴趣也在激增。Hyperion公司的Sorensen表示:“关键在与数据移动,而不是计算能力。可以解决数据移动问题的CPU将会胜出。”

云计算三大巨头——亚马逊、微软和谷歌——总共投资数十亿美元在定制硬件上,用于提高自身云平台的性能或者调优服务来满足特定的用途,例如人工智能开发等等。云提供商喜欢人工智能。机器学习和深度学习过程会消耗大量数据,消耗的处理能力和所能提供的一样多。

人工智能芯片

谷歌把自己的云计算战略重点放在了处理人工智能工作负载上,为此设计了名为TPU的微处理器家族,号称相比GPU的成本更低性能更高。

TPU的性能突飞猛进,到目前为止还没有遇到X86面临的物理局限性。谷歌的Heredia表示,2015年的时候在多层神经网络ResNet 50上训练一个深度学习模型的成本超过20万美元,“而今天,成本比一杯咖啡还便宜”。

其他云提供商也加入到这场硬件大战中。微软Project Olympus是一项针对微软基于OCP构建的云平台打造一系列服务器结构块的项目。AWS基于ARM的Graviton处理器从2015年开始开发,到现在已经在AWS EC2实例中实现普及。

“硬件专业化可以将延迟、性价比和功耗/性能比提高10倍,但多年来,大多数计算工作负载一直停留在通用处理器上,”AWS杰出工程师James Hamilton在最近的一篇博客文章中这样写道。亚马逊每年要安装一百多万个专用芯片,专门用于机器学习工作负载。

亚马逊的Nitro项目则是将硬件和软件结合,消除虚拟化的开销。Hamilton写道,亚马逊每年消耗“数百万个Nitro ASIC,而且是仅供AWS使用”。除了网络数据包封装/解封装、EC2安全群组实施和微处理器路由等开销之外,这种硬件配置对于大多数IT部门来说都是不切实际的。

Xilinx公司的Peng表示,“用于特定领域的架构”越来越多地成为人工智能和其他要求苛刻的工作负载一种解决办法。

英特尔也注意到了对专用处理器的需求,2015年英特尔以167亿美元收购了FPGA制造商Altera,以及最近收购的Nervana Systems、Omnitek B.V.和Movidius等专用芯片公司,就很好地证明了这一点。

但这并不是说微处理器就会消亡。根据IDC的数据显示,2018年全球基于英特尔X86的服务器出货量增长15.4%,但其中大部分增长来自满足云服务提供商的需求。

物联网的因素

虽然摆弄DIP开关和热插拔磁盘驱动器的时代可能快要结束,但并不是说IT部门就完全不关注硬件了。物联网热潮引入了数千种新平台,这就需要考虑每个平台底层的硬件因素。

“所有物联网厂商都有他们自己的解决方案,说到硬件,现在这还是一个非常碎片化的领域,”美国北卡罗来纳州卡里镇首席技术官Peter Kennedey这样表示。

美国北卡罗来纳州卡里镇正在将基础设施迁移到云端,把大约25%的基础设施转移到超融合平台上,但该镇也在安装智能停车计时器、智能水表,在供水系统中安装阿片传感器,甚至是啮齿动物掉进陷阱的时候发送电子警报。

对于卡里镇来说,要在云端处理所有这些新数据,延迟和数据量是最大的阻碍,这就需要安装新的边缘设备作为收集点和过滤点。“这是一种完全不同的硬件,每个硬件都是一个独立的设备,而且每个厂商的硬件都是不同的,标准也非常非常新。”

对他来说,“硬件变得前所未有的重要”。

Advanced Disposal Services公司的Saunders表示,系统管理之类的传统IT技能并不一定适用于这种新型的设备。目前他的公司正在为6000多辆卡车每辆车配备6个摄像头,用于安全和合规监控等目的。

他说:“你需要一个知道如何创新和创造新收入的团队,这与坐在办公桌前监控87台路由器可是不同的。”所幸的是,智能设备改变业务所带来巨大的机会,吸引着年轻的IT人员从事这项工作。

云提供商正在通过专用服务和硬件来解决边缘市场的各种问题,包括模拟云堆栈的内部部署基础设施等,但随着未来十年设备数量将近10倍的增长,可以肯定地说,物联网将让硬件一直成为关注焦点。

结果就是,IT部门未来今年将面临大量的硬件…

本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码

《数字化转型方略》杂志