2019年6月25日,由浪潮与OCP开放计算社区联合主办的首届OCP China Day(开放计算中国日)在北京正式开启。本届OCP China Day聚焦人工智能、边缘计算、OpenRack、OpenRMC、SONiC、OAM等前沿技术话题,来自Facebook、LinkedIn、Intel、微软、百度、腾讯、阿里、诺基亚、中国移动、浪潮等资深技术专家分享了最新技术进展。近千名工程师和数据中心从业者参加了此次大会。
OCP是全球最大的开放硬件社区,2011年由Facebook发起成立,其宗旨是以开源开放的方式,重构当前的数据中心硬件,发展面向下一代数据中心的服务器、存储、网络、基础设施等创新硬件。目前,OCP核心会员超过200家。
作为OCP铂金会员单位、本届OCP China Day的联办方,浪潮高级技术总监郭洪昌发表了《Empower computing through Inspur Open Technology》主题演讲,并邀请合作伙伴Intel Fellow Mohan kumar分享了Intel在OCP和云计算领域做的工作。
以下为大会演讲实录:
浪潮高级技术总监郭洪昌:浪潮牵头成立了OpenRMC技术小组,并且与Intel开发了crane mountain规范
浪潮高级技术总监 郭洪昌
主持人:谢谢Bill Carter和家军,非常恭喜OCP社区的不断壮大,下面我们邀请来自浪潮的郭洪昌先生和英特尔的Mohan Kumar先生,Mohan Kumar会跟郭洪昌一起跟我们谈他们的话题,主要是浪潮和英特尔开源的环节。下面有请浪潮的郭洪昌跟大家讲浪潮开源的策略和在OCP上的贡献和发展,稍候有从英特尔专程飞过来的高级专家Mohan Kumar先生,和郭洪昌先生一起分享两个公司的合作进展。首先掌声有请郭洪昌。
浪潮高级技术总监郭洪昌:各位参会的嘉宾和参会人员上午好,非常高兴代表浪潮跟大家分享我们在OCP和开源组织中的进展和创新。我的演讲题目分三部分,首先是浪潮在开源计算上的策略,接下来讲我们跟OCP组织的合作、开放的标准、开放的产品,最后我们未来在开源计算和OCP组织的合作上的计划。
首先,众所周知,浪潮这几年有了非常大的发展,我们可以看到截止到去年年底,浪潮在中国的市占率第一,全球范围之内浪潮也保持全球前三的市占率。我们可以从这张图的右下角看到浪潮的增长速度还是比较快的,我们相信浪潮的发展离不开我们的生态系统和各位合作伙伴的帮助。从左边这张图可以看到,浪潮的增长非常大,其中最大的贡献就是关于AI服务器,人工智能是现在发展最快的一个应用场景,浪潮在中国的占有率超过了一半,在AI服务器品牌的发货量上浪潮也是世界第一的地位。浪潮取得的这些成绩来自于什么?
我们归纳来说浪潮的战略分四个点,我下面一一介绍。第一是融合,刚才LinkedIn的嘉宾也讲到了融合,融合是现在云计算发展的趋势,现在软件定义SDI,对于计算、存储和网络的界限越来越模糊,我们依靠于现在这些软件和应用场景能用一个功能模块发挥它们的作用,这也就是浪潮要做的融合的理念。除此之外,我们目前在软件和硬件的结合上,尤其是目前人工智能的发展,怎么把人工智能的这些算法、框架和传统的行业结合起来,这是我们需要探索也是值得我们去发挥我们的创新能力和解决方案能力的地方,这是第一个融合。
除了融合之外,我们要开源。开源包括两部分,第一部分是我们和一些开源组织的合作,比如现在的Openstack、OCP、ODCC,除了这些开源组织之外,我们要避免形成一些信息的孤岛,怎么做呢?我们尽可能使得浪潮的架构更加开放,我们可以做一些模块化的设计,可以让我们的硬件或平台能够很容易地实现ODCC、OCP这些产品和规范的融合和迁移,这是开源的部分。
我们做到了这些产品之后怎么样实现尽可能快的交付给客户,这就是刚才讲的第三点敏捷。浪潮从2008年开始就和百度、腾讯、阿里这些中国的CSP客户有了合作,在这基础上十几年我们有了很多经验和技术的累积,我们能做到在很早的产品规格设计阶段就跟这些客户有一个紧密的沟通和讨论,这样让我们的经验回馈给这些客户的设计,能够尽可能的让产品的设计和生产研发有一个紧密的结合,这样能缩短产品的设计周期,最后实现快速制造然后交付给客户。最后强调生态系统的合作,我们不可能包打天下做成一件事,我们要和业界的合作伙伴,比如AI领域、生产制造领域的,我们和这些合作伙伴一起合作,让我们的产品更加符合客户的需求,这就是我们的战略。
我们怎么和开源的组织有一些合作呢?从这张图可以清楚地看到,浪潮和OCP、Olympus项目组、ODCC都有非常多的合作,我举几个简单的例子,我们在2017年在OCP峰会上发布了ON5623 M5的产品,这个产品是第一款基于英特尔的Skylake CPU平台的产品,这是我们快速把我们最新的技术贡献给开源组织,供更多客户使用的范例。还有一个例子是Open 19,我们加入Open 19之后第一个推出三个基于英特尔Xeon E5的CPU产品,能够让我们的设计更好的满足Open 19这个机柜的解决方案,能够满足这些用户在不同的运用空间上的产品板卡的适配的要求。
最后是ODCC,ODCC是2011年天蝎就成立了,在ODCC里我们第一个用了整机柜的交付,整机柜的产品在百度、阿里、腾讯的数据中心都有使用,这是我们和所有的开源组织合作的情况。具体到OCP组织我们又有哪些合作呢?可以通过最左边这个图看到,我们和OCP的合作除了服务器存储这些系统级的合作之外,我们在部件级上也有很多合作,举个例子,比如我们在OpenRMC,基于OpenBMC基础上对于整个机柜的不同节点,散热、电源、计算节点都实现监控和控制的功能。除此之外,OAM是OCP最新的工作组,我们也在参与到他们其中板卡的设计和标准的制定。中间这个图可以看到浪潮除了ON5263这一个计算节点之外,又衍生出了多个计算场景,包括IO平衡型、IO密集型、计算密集型,我们在这个之外也贡献了2U 4路产品和3OU 4路的产品,希望我们这些产品在开源组织里适用不同的应用场景,适合不同的计算或IO的应用需求。
我们都知道OCP除了标准化的产品之外还有标准化的组织或标准化的测试,浪潮积极参与其中,我们和英特尔一起合作做OpenRMC的规范,并贡献到开源组织,让其他的厂家参考。我们在OAI里跟业界领先的厂家一起合作,能够制定一些跟AI有关的异构加速器的标准。
这是浪潮和OCP合作的点点滴滴,2016年5月份浪潮加入了OCP组织,到2017年初浪潮成为了OCP的铂金会员,我们每年都会贡献我们的产品,包括组织一些市场的活动,比如今天的OCP China Day就是OCP与浪潮联合主办的会议,我们希望通过这样的活动,能够使我们的好朋友们汇聚在一起,大家一起畅谈开放计算、融合、AI目前发展的技术热点,大家探讨这些热点,然后找到一些合作的商机和机会。
2017年1月份之后我们陆续推出了基于英特尔的Skylake的计算节点和服务器产品,我们出了4路的节点,未来计划做AI的板卡,我们未来要参加Open Eage的新节点和新应用场景的适配,这是我们要和开源组织合作一起贡献给我们的广大用户的技术特点和技术创新。
我想隆重介绍和强调一下,今年浪潮推出了4款产品,这4款产品都要贡献给OCP这个开源组织,不会收取费用,各个用户只要能在网站上找到这些设计文档,根据这些设计文档设计自己的产品。分为三大类,第一类是计算节点,我们可以看到5263是一个双路的skylake平台,我们推出了4类产品,左边是2OU 4路产品,可以在2U的计算里提高最大的计算密度,可以满足用户对于功耗的要求,同时又可以提供更大的计算密度。在计算节点里的右边这个图是3OU 4路的产品,基于微软的Olympus的产品,我们觉得这是一个适当的时机把它开源出来。
中间是我们的存储节点,我们现在是2OU 34硬盘的设计,这个设计针对于冷存储和温存储有更好的存储和性价比,我们把它开源出来以后用户想使用的话可以通过网站下载参考设计。右边是AI的计算节点,3OU的空间里提供了基于NVLink 8GPU的模块,这是非常高的计算密度,提供了6个PCIE的Slots,用户可以插PCIE标准的板卡,我们可以对PCIE的switch通过IO拓扑的定义。这是今年推出的4个开源OCP产品。
未来浪潮会继续在开源和技术创新里面深入下去,除了左边的计算、服务器、数据中心的创新之外,未来我们也会在Open Edge领域做一些探索,目前5G时代到来,我们目前正在定义自己的产品,我们也在根据中国的应用需求和中移动、中国电信的广大中国运营商合作,探索符合中国应用需求的计算模块或计算节点。我们希望我们的产品能更好的回馈广大用户,包括中国也包括世界的客户。
最后我想介绍我们的合作伙伴,同时要强调浪潮和英特尔一起合作,我们把基于Cascade处理器,2OU 4路产品开源到OCP组织,能够更好的满足客户在计算密集型、性能功耗比的场景下的应用需求。下面请Mohan Kumar上台谈一下英特尔的具体技术要求和他们对OCP的贡献。
Intel Fellow Mohan Kumar:Intel联合浪潮共同研发推出高密度、面向云优化的计算平台,将于2019年上半年上市并贡献到OCP社区
Intel Fellow Mohan Kumar
Intel Fellow Mohan kumar:非常感谢浪潮能够跟我们分享这些信息,我下面想给大家讲的是关于云、OCP,以及OCP在云计算方面做的事情,以及英特尔在OCP中参与的项目,我也会谈一下边缘计算。现在已经有越来越多的数据要求,所以我们对于云的计算要求也会越来越多,所以今后的4年当中,我们整个计算有将近两倍的增长,我们需要更多算力的部署,它可以体现在数据的零售、广告、媒体,还有是我们云计算,基本上能够达到非常大的一个数字,大约可以达到一万亿左右的标准,我们现在来看一下云,它不仅仅是一个硬件,而且是解决方案,这是为什么要建立OCP,我们需要有一个平台,对于这个平台而言,他不光有服务器,而且有很好的关于平台方面的安全,对于OCP,我们有非常好的项目做好安全方面的事情,还有是关于固件方面对于OCP的贡献,对于管理而言,它的基础设施是非常重要的,包括边缘的基础设施也非常重要,在这个基础之上,就是我们说的机架,它让我们对于机架以及动力做很好的监测。在数据中心的基层中,我们也能够使得数据中心的设备运行更加有效,在我们的想法中,OCP能够满足在云的环境下计算所有的相关要求。
如同我谈到的一样,我们必须有一个高密度的与云优化的平台,所以对英特尔而言,我们必须考虑到下一代云的基础设施,应该能够做的更好,我们要有2U的平台,当然要在2U平台中,能够把成本降到更低,也能够使运行的效率更高,所以对平台的创新是包括我们的IaaS,基础设施作为服务,另外我们为了能够有更好的冷却功能,也能够做更好的服务器的设置,英特尔不光是自己在工作,也和腾讯公司一起合作,他们也愿意有一个高密度的,以云为中心的架构。
我们来看一下这个架构究竟怎么样,比如他能够和英特尔的远景非常切合,他能够看到2U的450mm×780mm的Xeon,我们可以做到48的DDRS内存,可以在2019年就推出来上市,他是在OCP组织中和浪潮共同合作的一个项目,对于OCP现在已经到了最终的一个认证的阶段,预计2019年上半年可以完成。
在2U优化云的环境之下,你可以看到我们共同的合作伙伴,有的在设计上对我们进行了贡献,比如像硬件,以及具体的计算标准,这些合作伙伴都和我们密切合作。
下面我给大家说一下关于英特尔和OCP共同的创新。这个是我们做的一个案例研究,我们非常积极的参与到开放系统的研发当中,我们当时有一个比较大的问题,有很多云平台的问题,性能的变量,性能不一样,有很多云供应商和企业,他们都需要管理自己的平台。我们不想再用SMI,我们要把他转成平台运行时间机制,PRM,然后把SMI之前的功能放到操作系统的层面上,之前的核心是遮蔽的,你看不到,对操作系统是隐藏的,你也改变不了,也看不见后面的东西,现在我们把SMI的系统管理中断功能放到了PRM的机制下面,这是一个案例研究。
另外一个项目是数据中心冷却,功率的预测,这个屏幕左边是数据中心功耗的情况,如果我们保持2010年左右的能耗,我们是没有办法给所有的数据中心供电的,我们需要改善管理,我们还需要有一些其他的措施才能使我们的功耗下降,同样的计算力,我们需要有更低的功耗。我们会有一个主动的功率预测冷却模式,之前大家是一个闭环的情况,闭环的问题就是他是被动反应的,在现象发生之后才能调整,所以他总是会滞后一点,更好的机制,我们在研究,也是我们和中国的云客户一起努力的,一个预测的机制,我们知道热功率的模式,我们知道在云数据中心的模式,我们会预测冷却需要的功耗,我们可以先系统一步进行预测,开启一个预测窗口,这是我们想要为数据中心设施做出的贡献。
再从云中转到边缘,边缘现在也是新兴的应用比较集中的地方,因为数据的增长,边缘计算才应运而生,因为我们没有办法把所有的数据都汇集到云上处理,会有很大的延迟,而且带宽也不允许,所以我们的想法就是直接在边缘进行数据处理,为了使得边缘计算可能实现,我们也需要一些组成的部分和技术解决方案。
然后我们就可以有一个平台在边缘,同时如果需要把一部分数据汇集到云上的时候也可以做到,像内容分发平台和移动边缘计算都属于这个范畴之内,大多数互联网企业都跟英特尔有合作。边缘方面有哪些要求?如果是在零售行业,我们不能说只给他一个平台,然后解决方案找另一家买,我们必须提供一个完整的解决方案,包括平台在内,而且说到维护也一样,一般在边缘机房里维修服务器的人,他的技术水平不是很高,我们还需要进行隔离,一个系统出现故障不会连累其他系统,我们需要一些创新,而且我们也会继续在硬件,比如加速器,GPU这些也进行一些创新,OCP也有相关的项目,包括云、数据中心的,包括开放的固件,而且我们要减少固件的复杂性,使它在边缘环境能够运行的更好。
再一个是固件要有弹性,这个跟安全有一定的关系,平台和固件相对集中的云环境之下,它会更脆弱一些,还有电源管理,在边缘机房可能没有太多的电力功耗供你使用,所以我们需要有很好的电源管理解决方案,而且OCP在电源管理方面也是起到了非常积极贡献的作用,不仅仅给云的客户提供解决方案,而且也满足了边缘客户的需求。
还有很多我们在做的项目,我们还有一个比较兴奋的,对于OCP的贡献,英特尔和浪潮一起开发了叫做Cloud-OPtimized Platform 高密云优化的计算平台,涉及到数据中心的冷却,我们共同制订出白皮书,除此以外,在OCP的固件方面,OCP我们也会做RPM,平台运行时间机制的案例研究,我们也会看到多路的FSP的项目,不仅依赖第三方解决方案,我们会自己研发。还有虚拟机的演变趋势,我们也会有相关的测试配置,对于NVME也有相关研究,还有我们跟OCP也有非常密切的合作,号召大家的行动就是要利用我们对OCP所有的贡献和我们的平台,如果大家有任何的新想法是关于云或者边缘创新,我们都非常渴望和大家进行讨论和合作,最后代表OCP和像Bill这样的专业人士,希望大家更多的参与到OCP的活动中,如果大家是第一次参加北京的OCP活动,我们希望未来有更多这样的机遇,感谢各位。