几个月内,亚马逊AWS、Marvell、Ampere等陆续推出了,基于Arm架构设计出的服务器芯片新品,而此前就有华为站队,Arm服务器阵营的影响力可以说日趋强大。
在拉斯维加斯的re:Invent大会上,亚马逊AWS CEO Andy Jassy就直接对外表示,他们不再需要大量的x86处理器来运行工作负载了。Arm成了不二人选。
然而也不乏反对声,此前Linux创始人Linus Torvalds就公开说出了自己的想法,称ARM架构无法在服务器领域取得成功。而有一个事实是,自2008年就开始尝试服务器市场的Arm确实一直都没有真正进入这个市场。
可以说,Arm是否能够进入服务器市场一直是行业内,一个为人所津津乐道的话题。而因为今年市场形势的变化莫测和Arm技术的更进一步成熟,Arm的局面似乎要逼近了翻盘。
此Arm非彼Arm
不久前,Ampere在发布新品时就特别赞许了ARM架构技术的进步,要知道这家初创公司的团队大多具备Intel服务器架构的开发经验。
对于ARM架构,他们特别提到了这几个方面,“经过了过去几年的发展,ARM架构的综合能力已经具有领先数据中心的性能和能效要求。同时,Arm软件的生态现在基本上已经成熟了,所有数据中心都可以基于ARM运行的,不仅仅是操作系统、中间件等,还包括应用。”
其实,2008年Arm巨额投资Calexda开始,它酝酿服务器市场的计划就显露出来,而发展至今,尽管具有低功耗的优势,ARM架构在性能上一直不及X86,因此业内也只是在建设冷数据的存储中心会采用功耗相对较低的ARM架构。
当时想要打破Intel的服务器生态,着实是一件难度比较高的事情。有统计数据表明,在2008年到2013年期间,X86 CPU性能基本保持年度复合增长在60%左右性能的增长。
不过,随后几年,X86处理器架构的性能增长大幅下降,这给了市场中其他竞争者机会,比如可以替代英特尔的AMD。
但Arm与AMD们不太一样,它想要做的不仅仅是性能相当的替代,还要把“低功耗”优势做进服务器市场。
选择这样做的原因很简单,数据中心的能耗成本与日俱增。有数据显示,一个典型的IT机柜的能耗曾是1-3千瓦,而现在机柜常见的负载为20-40千瓦。随着性能增加,机柜的能耗还会继续增加。
谷歌当时选择自研TPU就与能耗有很大关系。当时谷歌负责全球基础设施业务的Joe Kava就透露,谷歌在2015年使用了5.7太瓦时的能源。他说,“数据中心的能耗占去了大半,这也是谷歌缘何能成为云计算园区可再生能源的头号买家。”
其实,在国内大规模推动数据中心建设时,能耗过高的问题同样会困扰着阿里、腾讯等互联网巨头,因此Arm的胜算也会更多。
其实通过市场评价来看现在的Arm,对标X86,如今的它其实具备抗衡能力。
首先Arm有强大的生态,而且低功耗的优势很明显。因此尤其随着近几年云计算市场需求兴起,云—边—端被提出来后,超大规模、边缘侧等各类数据中心对功耗要求越来越高,Arm也自然会被越来越多的厂商考虑。
同时难能可贵的是,ARM架构的性能有了比较显著的提升。有用户在评测基于ARM架构搭建的华为鲲鹏服务器和传统X86架构服务器时,已经发现ARM架构的计算性能表现十分逼近X86架构了,这一点让Arm的最大短板得到了弥补。
机遇与挑战并存,厂商站队各有想法
目前,选择ARM架构来搭建服务器的厂商,已经不少。其中不乏亚马逊、华为这样的头部厂商,同时Marvell、Ampere以及国内的飞腾还在基于ARM架构来做服务器芯片研发。
可以说,综合考虑市场和Arm技术本身,各家厂商站队Arm生态各有各的原因,而正是这些“原因”,构成了Arm可以预见的未来。
在华为全连接大会上,就为什么弃用X86而选择“性能要差些”的Arm,胡厚崑给出了这样的解释,“Arm在手机生态上的优势会向数据中心延伸,以前Arm在数据中心推广的主要瓶颈是性能,而华为发布的鲲鹏920是兼容Arm的,由于技术创新,性能超越了业界主流通用CPU 25%以上。”
同时,他还补充说,“客户对ARM架构的需求也随着手机算力向云端迁移增长,如果云端使用X86架构将会损失40%的性能,使用ARM架构则会增加40%,这也是华为支持ARM架构的原因之一。”
其实从胡厚崑的解释中,我们能够看出,华为想要打造属于自己的生态,因此Arm的强大生态是它非常看重的,而在性能方面,华为用自身的设计去做了改进和弥补,这里面有很大的原因是出于一家大厂的自信。
当然,华为自然也有自己的战略布局考虑。其实“全连接”传达出的就是华为要打通移动终端和服务器端生态的想法,从这个战略角度来看,对华为来说,没有什么比ARM架构更合适。
而亚马逊选择Arm的原因则更简单,它就直接对外宣称,因为采用基于ARM架构设计的云服务器芯片Graviton,有部分工作负载可以降低45%。
其中,亚马逊AWS对外提供的Amazon EC2服务就是基于ARM架构做的。可以看出,与华为有些不同,亚马逊选择Arm很大程度上是为了做出更加满足自身服务需求的“定制化”芯片,因为可以基于ARM架构来进行芯片设计,而Amazon EC2服务也有了诸多创新,比如良好的可伸缩性等,以满足云服务的需求。
再看基于ARM架构做创新型的服务器芯片厂商,其想法也有些与亚马逊不谋而合。Ampere在接受采访时,就表示Arm的生态系统已经有了大幅度的成熟,而基于Arm设计的芯片,可以满足云端的需求。
“经过过去几年的发展,ARM架构已经具备一定竞争力。同时云端发生了很大的变化,尤其是可预测的性能、平台可扩展性等需求的变化,市场也在反推芯片设计的创新。”
事实上,如Ampere提到,不同于传统数据中心,随着市场发展,存储数据中心、控制中心、计算中心和网络中心等多样终端出现,这带来了多样的需求,尤其是云需求给新入局者创造了很多机会,这是ARM架构重新获得进入市场机会的一个重要原因。
性能不可妥协,成本难降或催生新商业模式
不难发现,Arm能够逐渐被认可,除了本身的生态优势,其在技术上的进步,以及整个市场需求的变化,多方面因素促成了这样的市场选择,也帮助Arm打开了市场的突破口。
但正如当下很多厂商仍然在犹豫一样,大家没有选择Arm,关键就在于性能。简单来说,性能不足是硬伤,即便在其他方面有诸多优势,再有潜力也难受到大家的广泛认可。
事实上,也确实如此,因为ARM架构的不成熟,它极易造成数据中心的不稳定和不安全,从而造成大面积宕机现象,其问题的严重性也自然高于成本等其他因素。
那如果不采用ARM架构,还有什么方式可以降低能耗,或者说成本?
依据业内的分析,性能提升、功耗降低基本不成现实。但是有人提出,其实可以考虑通过云定价模式来开发新的商业模式,以优化能耗成本,比如基于负载流量的动态路由机制设计最优服务定价策略。
这不失为一个可行的好办法。
提出该办法的作者就指出,当下很多研究者大多是从降低能耗总量的角度出发去研究各种数据中心节能技术,但是这些技术并没有考虑定价机制对能耗优化技术的影响。
而无论是提供云服务的厂商,还是数据中心运营方,大家其实最关注的还是自身利益的最大化,因此能够研究出定价与能耗优化之间的关系,给出最优的定价策略和能耗成本优化方案,这可以说是必由之路,也将促进云计算市场的健康发展。
作为国内最大的云服务提供商,阿里云的营收增速虽然很快,但该业务的亏损已经是一个公开的秘密。在阿里巴巴2019年年报中,我们就能看出,作为阿里四大核心板块之一的云计算业务,虽然2019财年的营收为240.8亿元,达到了2015年的近20倍,但是其亏损是在持续扩大。这里面,很大的原因就在于不断增加的成本投入。
总体来说,一边是成本,一边是性能,云计算厂商其实已经陷入两难的境地,而想要化解该难题,多半需要仰仗芯片和架构提供商们了。这是Arm和其他新玩家的机会。