助力云端训练深度学习模型,亚马逊发布Trn1新实例

作者:潇冷 来源:原创 2021-12-01

  12月1日,亚马逊AWS公布其由Trainium芯片提供支持的最新实例Trn1。“我们希望它能为在云端训练深度学习模型提供最佳的性价比,并在EC2上提供最快的性能。”AWS re:Invent大会上,Adam Selipsky说。

  据了解,AWS早在2019年便推出了旨在加速推理学习的Inferentia芯片,并于2020年推出其专为机器学习模型设计的自研云端训练芯片Trainium。

  此外,Trn1是首个带宽高达800 GB/s的EC2实例,很适合大规模、多节点的分布式训练用例,比如图像识别、自然语言处理(NLP)、欺诈检测、以及预测等。

  更重要的是,客户能够选择将这些芯片联网到一起、并放入“超级群”(Ultra Clusters)中,以获得更强大的性能体验。

  “超级群”包含了数万个与PB级网络互连的训练加速器,背后有着强大的超算为机器学习用例提供支撑,可快速训练具有数万亿个参数的最复杂的深度学习模型。

  最后,Adam Selipsky表示该公司计划与SAP等伙伴达成合作,以更好地发挥Trn1新芯片的处理能力。

发布
X
第三方账号登录
  • 微博认证登录
  • QQ账号登录
  • 微信账号登录