“我们以前把弹性计算比喻成‘构筑一个青藏高原’,其实它是一个算力的高原,旨在为全社会提供更好的算力基础。经过近几年的发展,我们能够赋能客户去构筑自己的一个‘珠穆朗玛峰’。”近日,在2020年全国高性能计算学术年会(HPC CHINA)期间,阿里巴巴集团研究员、阿里云智能弹性计算负责人张献涛(花名“旭卿”)在接受环球网报道记者采访时表示,“当弹性计算遇到高性能计算,阿里云高性能计算平台满足了客户对于算力的要求,利用这个平台的优势,客户就可以把自己的应用搬上‘珠穆朗玛峰’。”

阿里巴巴集团研究员、阿里云智能弹性计算负责人 张献涛

高性能计算的“青藏高原”

2017年9月,阿里云宣布推出全新一代异构计算加速平台,在业界第一次覆盖了包括AMD、NVidia的GPU和Intel、XILINX的FPGA在内的所有6款主流异构实例。彼时,阿里云高性能计算研发负责人何万青曾指出,“如果把传统超算中心比作‘珠穆朗玛峰’,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,成为高性能计算的‘青藏高原’。 在青藏高原上看,世界之巅珠穆朗玛,相对而言是4千多米,通过神龙超级计算集群,你随时可以构筑在阿里云上的珠穆朗玛。”

2020年阿里云弹性计算产品年度发布会上,阿里云宣布推出第三代神龙云服务器,即第三代弹性裸金属服务器(ECS Bare Metal Instance),它是基于阿里云完全自主研发的下一代虚拟化技术而打造的新型计算类服务器产品,兼具虚拟机的弹性和物理机的性能及功能特性。与上一代虚拟化技术相比,它不仅保留了普通云服务器的弹性体验,而且保留了物理机的性能与特性,全面支持嵌套虚拟化技术。

在张献涛看来,企业用户需要更强的计算性能、更快的网络接入、更高的存储读写能力,意味着存储的IOPS要高、网络的PPS要高、网络的带宽存储能力要高,而解决这些问题的根本则在于——变革虚拟化技术。“传统服务器主要依赖堆硬件提升性能,而阿里云自研的神龙架构,基于硬件云原生理念,创新性打破了虚拟化技术与CPU、内存、网卡等硬件的天然鸿沟,可发挥出比传统物理机更强的性能。”张献涛说到。

基于第三代神龙云服务器的阿里云第六代增强型实例,全系搭配ESSD系列云盘,存储转发能力最多提升四倍;支持10Gbps突发内网带宽,单卷延时大幅下降;性能等级按需配置,在线无损变配;同时ESSD使用门槛大幅下降50%,性价比大幅提升。此外,阿里云ECS的单实例稳定性从原来的99.95%提升到99.975%,跨AZ多实例稳定性从原来的99.99%提升到99.995%,均为全球最高水准。

依托神龙架构的创新突破,超算中心可以在云上瞬间生成,只需在弹性裸金属上用高速的ROCE/IB网络进行互联,再连接VPC、云盘、以及云上的其他产品,构建整个HPC软件栈加上连接云端并行文件系统,用户就可以得到一个能媲美或超越超算中心的云超算中心,具备相当高的并行效率,并且具备云的弹性。

助力行业攀登性能“高峰”

据介绍,《流浪地球》制作方MORE VFX(墨镜天合)已将算力需求最大的渲染环节迁上阿里云。传统的后期处理,对计算力的需求会随项目而变,低谷期利用率不高、高峰期资源无保障,且排队严重。为了解决这一问题,MORE VFX通过专线上云,利用阿里云高性能计算E-HP服务,在云端完成渲染,一天可以处理原本一周的量,大大缩短了渲染等待时间。

采访中,阿里云智能高性能计算负责人何万青告诉记者,MORE VFX后期特效量极大,且对于计算力的需求随项目而变。其自有本地农场数百台多核服务器在低谷期利用率不高,在高峰期任务排队又严重,这就需要借助外部渲染农场服务器才能完成任务。而农场服务器老旧,性能不高;只能依靠硬盘寄送方式,资产安全性差;同时资源缺乏弹性。这些问题困扰着MORE XFV,最终选择了渲染上云利用阿里云高性能计算服务(E-HPC)平台,在云端完成渲染任务。

阿里云智能高性能计算负责人 何万青

值得关注的是,在渲染任务上云过程中,结合后期制作公司的业务流程需求,阿里云团队提供了混合云渲染方案,同时通过为MORE VFX定制文件异步缓存能力,有效降低了超大规模集群渲染时对专线带宽的压力。另外,通过阿里云高性能计算缓存层的横向、纵向扩展能力,能够平滑分解渲染节点对缓存层的吞吐和IO压力,从而提供极强的资源弹性。

据报道,通过阿里云高性能计算集成的行业通用软件deadline、计费和报表功能,渲染集群可以根据任务排队情况自动伸缩,使得运维极其简单,大大节省了MORE VFX IT部门的工作量。

目前,阿里云高性能计算已覆盖工业制造、生命科学、油气勘探和影视特效等多个行业,除了流浪地球制作方MOREVFX等顶级视效企业之外,还服务了吉利和上汽等知名车企,并在新冠疫情期间公益支持了全球健康药物研发中心(GHDDI)、中山大学等全球十多家医疗与科研机构进行新冠相关研发工作。

值得一提的是,今年8月份,Gartner发布的最新云厂商产品评估报告显示,阿里云在计算大类中,以92.3%的高得分率拿下全球第一,并且刷新了该项目的历史最佳成绩;在存储和IaaS基础能力大类中,阿里云也位列全球第二。记者 林迪