TPU張量處理器

2023年4月,谷歌公布了張量處理器（tpu）的**——tpu 已經在谷歌資料中心內部使用大約四年，而且tpu 在推理方面的效能要遠超過 gpu（「儘管在一些應用上利用率很低，但 tpu 平均比當前的 gpu 或 cpu 快15-30倍，效能功耗比高出約 30~80 倍」）

2023年5月，谷歌在i/o大會上首次公布了tpu（張量處理單元），並且稱這款晶元已經在谷歌資料中心使用了一年之久，李世石大戰 alphago 時，tpu 也在應用之中，並且谷歌將 tpu 稱之為 alphago 擊敗李世石的「秘密**」。

許多架構師認為，現在只有領域定製硬體（domain-specific hardware）能帶來成本、能耗、效能上的重大改進。本研究評估了自2023年以來部署在各資料中心，用於加速神經網路（nn）的推理過程的一種定製 asic 晶元——張量處理器（tpu）。tpu 的核心是乙個65,536的8位矩陣乘單元陣列（matrix multiply unit）和片上28mb的軟體管理儲存器，峰值計算能力為92 teraop/s（tops）。與cpu和gpu由於引入了cache、亂序執行、多執行緒和預取等造成的執行時間不確定相比，tpu 的確定性執行模組能夠滿足 google 神經網路應用上 99% 相應時間需求。cpu/gpu的結構特性對平均吞吐率更有效，而tpu針對響應延遲設計。正是由於缺乏主流的cpu/gpu硬體特性，儘管擁有數量巨大的矩陣乘單元 mac 和極大的偏上儲存，tpu 的晶元相對面積更小，耗能更低。

我們將 tpu 與伺服器級的 intel haswell cpu 和 nvidia k80 gpu 進行比較，這些硬體都在同一時期部署在同個資料中心。測試負載為基於 tensorflow 框架的高階描述，應用於實際產品的 nn 應用程式（mlp，cnn 和 lstm），這些應用代表了我們資料中心承載的95％的 nn 推理需求。儘管在一些應用上利用率很低，但tpu 平均比當前的 gpu 或 cpu 快15-30倍，效能功耗比（tops/watt）高出約 30-80 倍。此外，在 tpu 中採用 gpu 常用的 gddr5 儲存器能使效能tpos指標再高 3 倍，並將能效比指標 tops/watt 提高到 gpu 的 70 倍，cpu 的 200 倍。

谷歌稱 tpu 為張量處理單元，專為 tensorflow 定製設計。**第一代tpu面向推理(第一代 tpu 是專為推理投產乙個定製的asic晶元，並購買市售的gpu用於訓練，因此**中的效能比較也僅限於推理操作。)，而第二代的重點是加速訓練。**在tpuv2的核心裡，乙個脈動陣列（systolic array）負責執行矩陣乘法，這在深度學習中被大量使用。

目前，谷歌的cloud tpu正式發布。谷歌tpu終於面向大眾開放。只需要每小時6.5美元，你也有可能用上谷歌tpu。**cloud tpu僅支援tensorflow 1.6版本。**除此之外，你的vm例項上不需要任何驅動程式，因為與tpu進行通訊所需的所有**都由tensorflow本身提供。在tpu上執行的**經過優化，並由xla進行實時編譯，xla也是tensorflow的一部分。

TPU張量處理器

張量處理單元 TPU

物理處理器與邏輯處理器

處理器核心

TPU張量處理器

張量處理單元 TPU

物理處理器與邏輯處理器

處理器核心

相關推薦