前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Paper: Google TPU

Paper: Google TPU

原创
作者头像
ll-finder
修改2021-05-20 10:36:23
1.2K0
修改2021-05-20 10:36:23
举报
文章被收录于专栏:do itdo it

In-Datacenter Performance Analysis of a Tensor Processing Unit

原文链接:https://arxiv.org/pdf/1704.04760.pdf

ABSTRACT

TPU(Tensor Porcessing Unit)是一个专门为神经网络预测(inference)定制的ASIC芯片。2015年已经部署在谷歌的数据中心用于加速神经网络的推理。TPU的核心是一个65536大小的8-bit矩阵乘法单元,提供峰值92TOPS算力。与Intel服务端CPU和NVIDIA K80GPU相比,在MLP,CNN,LSTM几种int8神经网络模型inference对比测试中,TPU平均比CPU或GPU快15-30倍,TOPS/Watt(每瓦算力)高出30-80倍。

注:TPU计算的是int8的矩阵,训练好的神经网络模型可以将参数通过一种量化(quantization)的方法将浮点数映射到int8,int8对于网络推理已经够用。一般情况int8的计算比常规float16计算更快,硬件设计时更省面积同时能耗更低。

TPU 架构

TPU被设计成一个协处理器,通过PCI-E总线与CPU进行数据交换,同时,TPU自己不会主动去内存中取指令,所有运行指令都是CPU通过PICE主动发送到TPU的指令缓存buffer中去执行,所以其实TPU其实更像是一个单纯的计算单元协处理器。

tpu-arct.png
tpu-arct.png

TPU的核心是 256*256的矩阵运算单元,能够计算8bit的整数乘法及加法。矩阵计算结果(conv计算)进入下面的累加器得到累加结果,结果会给到激活activation器进行计算,结算结果存储到Unified Buffer中,然后,由DMA决定数据的流向,从主机内存读入/取出,以及Unified Buffer中数据的流向(RNN中,结果会被矩阵运算单元再次用到),TPU的硬件设计架构是和神经网络的推理计算流程高度绑定的,这和通用的CPU计算架构有很大区别。

die.png
die.png

TPU的指令遵从CISC,指令CPI平均在10-20之间。一共包含12条指令,关键指令包括:Read_Host_Memory, Read_Weights, MatrixMultiply/Convolve, Activate, Wirte_Host_Memory等。TPU使用了4级的流水线,来充分利用矩阵运算单元。TPU中,计算和存储单元占据了接近70%的面积,控制单元仅有2%。由于神经网络推理计算的特性,TPU省去了cache,没有分支预测,没有乱序,多进程,上下文切换等一些列特性,所以可以占用较少的晶体管,减少功耗。

性能

硬件参数

hardware.png
hardware.png

性能对比

选取CNN,MLP,LSTM三种模型的6个网络做inference测试,MLP,LSTM出现内存瓶颈,CNN出现计算瓶颈。

perf.png
perf.png
perf-figure.png
perf-figure.png

功耗

谷歌的数据显示,能耗比GPU和CPU高出很多

pw.png
pw.png

TPU设计调整

结果是TPU很吃内存带宽,带宽提高4倍,性能能提高三倍。

总结

论文中提到的是谷歌初代TPU,被设计用来做int8神经网络的推理计算,不包含训练。相对于当时的CPU和GPU有能耗和性能优势(比CPU好很正常,GPU选的对比对象是K8,性能比较弱鸡,主要是能耗优势以及可以一卡多die)根据论文,单die int8性能是92TOPS,

对比NVIDIA A10 250TOPS.

不过谷歌已经推出了2代和3代TPU,支持浮点运算,支持网络训练,实用了许多,性能指标2代:180TFLOPS, 三代:420TFLOPS,NVIDIA A10是125TFLOPS

在淘宝只能找到华硕的TPU卡,看参数应该是一代的,性能有限,二代和三代貌似没有实体卡,只能在谷歌云租用Cloud TPU

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • In-Datacenter Performance Analysis of a Tensor Processing Unit
    • ABSTRACT
      • TPU 架构
        • 性能
          • 硬件参数
          • 性能对比
        • 功耗
          • TPU设计调整
            • 总结
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
            http://www.vxiaotou.com