Google新一代TPU v4打破6项MLPerf基准测试记录

作者:张伟 来源:原创 2020-08-03

  近日, Google AI负责人Jeff Dean发推文表示,在最新一轮MLPerf基准测试中,Google新的ML超级计算机和最新的Tensor处理单元(TPU)芯片,打破了6项MLPerf基准测试记录。

  这6个模型分别是用于排名与推荐的DLRM模型;常用于自然语言处理的Transformer;还有Google搜寻所使用的BERT模型;广泛用于图像分类的ResNet-50模型;可在移动设备上执行的轻量级物体侦测模型SSD;以及图像分割模型Mask R-CNN。

  谷歌在博客中披露,该超级计算机包括4096个TPU V3芯片和CPU数百个主机上的,并提供超过430 PFLOPs的峰值性能。较前一代TPU v3相比,拥有两倍的矩阵乘法效能,而且存储器频宽大幅增加,内部相连技术也获得改善,利用MLPerf基准测试比较TPU v4和TPU v3,TPU v4平均效能提升2.7倍,最大的效能差异是用于训练Mask R-CNN,TPU v4的效能是TPU v3的3.7倍。

  Google使用TensorFlow、JAX和Lingvo中的机器学习模型实作,从零开始训练Transformer、SSD、BERT以及ResNet-50模型,训练时间皆在30秒之内。而在2015年时,即便用最快的硬件加速器,训练其中一种模型,都需要花费3个多星期,现今相当于把相同模型的训练速度提升5个数量级。

发布
X
第三方账号登录
  • 微博认证登录
  • QQ账号登录
  • 微信账号登录