Paper: Google TPU

原创

ll-finder

修改于 2021-05-20 10:36:23

1.2K0

修改于 2021-05-20 10:36:23

文章被收录于专栏：do itdo it

In-Datacenter Performance Analysis of a Tensor Processing Unit

原文链接：https://arxiv.org/pdf/1704.04760.pdf

ABSTRACT

TPU(Tensor Porcessing Unit)是一个专门为神经网络预测(inference)定制的ASIC芯片。2015年已经部署在谷歌的数据中心用于加速神经网络的推理。TPU的核心是一个65536大小的8-bit矩阵乘法单元，提供峰值92TOPS算力。与Intel服务端CPU和NVIDIA K80GPU相比，在MLP，CNN，LSTM几种int8神经网络模型inference对比测试中，TPU平均比CPU或GPU快15-30倍，TOPS/Watt（每瓦算力）高出30-80倍。

注：TPU计算的是int8的矩阵，训练好的神经网络模型可以将参数通过一种量化（quantization）的方法将浮点数映射到int8，int8对于网络推理已经够用。一般情况int8的计算比常规float16计算更快，硬件设计时更省面积同时能耗更低。

TPU 架构

TPU被设计成一个协处理器，通过PCI-E总线与CPU进行数据交换，同时，TPU自己不会主动去内存中取指令，所有运行指令都是CPU通过PICE主动发送到TPU的指令缓存buffer中去执行，所以其实TPU其实更像是一个单纯的计算单元协处理器。

TPU的核心是 256*256的矩阵运算单元，能够计算8bit的整数乘法及加法。矩阵计算结果（conv计算）进入下面的累加器得到累加结果，结果会给到激活activation器进行计算，结算结果存储到Unified Buffer中，然后，由DMA决定数据的流向，从主机内存读入/取出，以及Unified Buffer中数据的流向(RNN中，结果会被矩阵运算单元再次用到)，TPU的硬件设计架构是和神经网络的推理计算流程高度绑定的，这和通用的CPU计算架构有很大区别。

TPU的指令遵从CISC，指令CPI平均在10-20之间。一共包含12条指令，关键指令包括：Read_Host_Memory, Read_Weights, MatrixMultiply/Convolve, Activate, Wirte_Host_Memory等。TPU使用了4级的流水线，来充分利用矩阵运算单元。TPU中，计算和存储单元占据了接近70%的面积，控制单元仅有2%。由于神经网络推理计算的特性，TPU省去了cache，没有分支预测，没有乱序，多进程，上下文切换等一些列特性，所以可以占用较少的晶体管，减少功耗。

性能

硬件参数

性能对比

选取CNN，MLP，LSTM三种模型的6个网络做inference测试，MLP，LSTM出现内存瓶颈，CNN出现计算瓶颈。

功耗

谷歌的数据显示，能耗比GPU和CPU高出很多

TPU设计调整

结果是TPU很吃内存带宽，带宽提高4倍，性能能提高三倍。

总结

论文中提到的是谷歌初代TPU，被设计用来做int8神经网络的推理计算，不包含训练。相对于当时的CPU和GPU有能耗和性能优势（比CPU好很正常，GPU选的对比对象是K8，性能比较弱鸡，主要是能耗优势以及可以一卡多die）根据论文，单die int8性能是92TOPS,

对比NVIDIA A10 250TOPS.

不过谷歌已经推出了2代和3代TPU，支持浮点运算，支持网络训练，实用了许多，性能指标2代：180TFLOPS, 三代：420TFLOPS，NVIDIA A10是125TFLOPS

在淘宝只能找到华硕的TPU卡，看参数应该是一代的，性能有限，二代和三代貌似没有实体卡，只能在谷歌云租用Cloud TPU

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

登录后参与评论

0 条评论

热度

Paper: Google TPU

Paper: Google TPU

In-Datacenter Performance Analysis of a Tensor Processing Unit

ABSTRACT

TPU 架构

性能

硬件参数

性能对比

功耗

TPU设计调整

总结

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐