从人工智能到云原生 NVIDIA正在布局超算领域

作者:贾桂鹏 来源:原创 2021-11-19

  日前,在本周SC21高性能计算大会上最新发布的TOP500榜单上,NVIDIA技术为355套超级计算机系统提供加速,占榜单的70%以上,而新增系统中90% 以上都采用了NVIDIA 的技术。对比6月份发布的TOP500榜单上342个系统(占榜单68%)使用NVIDIA技术,增长趋势明显。

  NVIDIA在全球最节能系统Green500榜单上也继续保持领先优势,占据了榜单排名前25名系统中的23套,与6月份持平。平均来看,采用NVIDIA GPU的系统能耗效率比非GPU系统高3.5倍。

从人工智能到云原生 NVIDIA正在布局超算领域

  除此之外,NVIDIA在本届SC21高性能计算大会上还有不少发布,下面我们一起关注一下。

  人工智能助力科学领域

  另外,人工智能正带来一场科学计算的革命。近年来,研究高性能计算和机器学习的论文数量激增,从2018年的约600篇增长到2020年的近5000篇。

  HPL-AI、MLPerf HPC等新基准也强调了高性能计算和AI工作负载的持续融合。

  作为一个融合了高性能计算和人工智能工作负载的新基准,HPL-AI使用了深度学习和许多科学与商业工作的基础——混合精度计算,同时还提供高性能计算基准传统的标准标尺——双精度计算的高度准确性。

  MLPerf HPC基准适用于通过AI实现超级计算机模拟加速和增强的计算方式,主要被用来测试高性能计算中心天体物理学、天气和分子动力学三大关键工作负载的性能表现。

  NVIDIA通过GPU加速处理、智能网络、GPU优化应用程序和支持AI和高性能计算融合的库来解决整个堆栈的问题。这一方法提升了工作负载的性能表现,并推动了科学突破。

  GPU的并行处理能力再加上超过2500个GPU优化应用程序,在多数情况下可以让用户把高性能计算任务的时间从几周减少到几小时。加上NVIDIA持续优化CUDA-X库和GPU加速应用程序,用户GPU架构性能还会有进一步提升。

  通过全栈创新,NVIDIA可助力超级计算机在科学应用程序上实现高达16倍的性能提升。

  NVIDIA通过NGC目录中的容器提供最新版本的人工智能和高性能计算软件。用户只需在数据中心或云端的超级计算机上拖拽并运行应用程序,即可实现性能的快速提升。

  云原生超级计算

  NVIDIA还在SC21大会发布了最新云计算原生超级计算机,能够兼顾运算性能与多租户使用的需求,在不牺牲性能的前提下完成多人同时使用的应用方式。

  NVIDIA在SC21超级电大会的演说中提到,随着通过GPU进行加速运算,以及Scale Up、Scale Out等扩展,以及导入机器学习,都大幅提升模拟运算的性能。然而这类高性能计算大多以裸机运算的形式进行,不像云计算原生能够以虚拟化、容器化的方式简化管理并满足多租户的使用需求。

  NVIDIA通过由Quantum-2交换机、ConnectX-7网卡、BlueField-3资料处理器(DPU)及DOCA软件组成的Quantum-2 400Gbps InfiniBand网络平台,将网络与资料吞吐相关的工作转移至DPU,让运行于云计算原生环境的程序也能完全发挥性能。

  在SC21的演说中,NVIDIA也提到了先前在GTC 21秋季展发布的Earth-2超级计算机与地球数字孪生,但并没有提供更多详细信息。

从人工智能到云原生 NVIDIA正在布局超算领域

  与Atos成立卓越人工智能实验室

  人工智能在高性能计算中的应用能帮助研究人员加快模拟速度,同时保持传统模拟方法的准确性。

  在此背景下,Atos和NVIDIA宣布成立卓越人工智能实验室(Excellence AI Lab,简称EXAIL),该实验室将汇聚一批科学家和研究人员,助力推进欧洲计算技术、教育和研究的发展。

  该实验室的首批研究项目将集中在高性能计算和AI的进步所推动的五大关键领域:气候研究、医疗和基因组学、与量子计算的结合、边缘人工智能/计算机视觉以及网络安全。

  Atos公司将利用NVIDIA基于Arm架构的Grace CPU、NVIDIA下一代GPU、Atos BXI E级互联技术和NVIDIA Quantum-2 InfiniBand网络平台,开发一台E级计算级别的BullSequana X超级计算机。

  一、预测和解决气候变化问题

  为了更准确地预测气候变化,来自Atos和NVIDIA的研究人员将在欧洲最快的超级计算机——Jülich超级计算中心上,运行新的AI和深度学习模型。这种巨型模型可用于预测极端天气事件的演变、及其随全球变暖而发生的变化,而这些将极大地受益于E级计算。

  JUWELS Booster系统基于Atos的BullSequana XH2000平台,拥有近2.5 exaflops的AI性能,搭载3744个NVIDIA A100 Tensor Core GPU,并采用NVIDIA Quantum InfiniBand网络,将有助于更深入地了解气候变化,并对飓风、极端降水、炎热和寒潮等事件进行更准确的长期预测。

  二、利用高性能计算、量子和AI加速医学研究

  利用计算基因组学助力实现医学突破,正在彻底改变药物研发和医疗领域。Atos生命科学卓越中心已经与40家领先机构合作,利用高性能计算、量子计算和AI来推进医学成像、基因组学和制药领域的发展。NVIDIA Clara 医疗应用框架可为基因组学、医学成像和计算化学应用提供超级计算性能。

  EXAIL将利用Atos的先进计算解决方案和NVIDIA Clara,帮助医疗研究人员和供应商利用嵌入式、边缘、数据中心和云平台,加速药物研发并设计先进的诊断解决方案。

  三、推进量子研究

  量子计算有望解决药物研发、气候研究、机器学习、物流和金融等领域的复杂问题。但在量子计算机变得可行之前,还有很多研究工作需要开展。

  Atos的量子机器学习是为即将到来的量子计算机时代开发的量子软件开发和模拟设备,使研究人员和工程师能够开发和实验量子软件。它将使用NVIDIA GPU助力大幅提高量子模拟的速度和规模。这将加速量子算法、量子信息科学、新的量子处理器架构以及量子-GPU混合系统架构的研究。

  四、加速计算机视觉

  利用Atos的边缘设备,例如其在NVIDIA BlueField DPU上运行的BullSequana Edge,EXAIL的研究团队将协力加速计算机视觉和5G无线基础设施。Atos全球六个专门研究计算机视觉的实验室将配备最新NVIDIA Fleet Command技术,用于在分布式边缘基础设施上安全地部署和管理AI应用。

  写在最后

  在SC21高性能计算大会上可以看出,从科学模拟、数据分析再到机器学习、深度学习等技术的发展和应用,正在推动超级计算中心、云服务提供商和企业重新思考他们的计算架构。有一点值得注意的是,超算不仅被用在科研,也开始在产业应用上取得进展。而NVIDIA在全栈计算方面的布局,使其开始发挥出更广泛的价值。

发布
X
第三方账号登录
  • 微博认证登录
  • QQ账号登录
  • 微信账号登录