TPU結構總結

tpu只完成推理過程，訓練過程在gpu上完成。tpu可以像gpu一樣通過pcie匯流排介面掛載到現有的伺服器上。設計目標是為了在tpu上完成所有的推理模型，從而減少和主機cpu的互動，進而滿足2023年及今後的神經網路需求。下圖是tpu的整體結構框圖。

主機通過pcie gen3x16的匯流排傳送tpu的指令到其中的指令buffer內，內部模組之間通過典型的256位寬通路連線。右上角的矩陣乘法單元是tpu的核心，它由256x256個macs組成，每個macs可以對有符號和無符號整形的資料完成8bit的乘加運算。在矩陣單元的下面有乙個4mib大小32bit位寬的accumulator，收集上面16bit的計算結果。4mib代表4096個, 256-element, 32-bit累加器。矩陣單元每個時鐘週期產生乙個256-element的區域性和（partial sum）。當使用8 bit權重（weight）和16 bit啟用（activation）（或反之亦然）的混合時，矩陣乘法單元以半速計算，並且當它們都是16bit時以四分之一速度計算。它每個時鐘週期讀取和寫入256個值，可以執行矩陣乘法或卷積。矩陣單元儲存乙個64kib的權重塊（ tile of weights），並使用了雙緩衝（這樣可以在處理時同時讀入權重）。該單元設計用於密集矩陣，而沒有考慮稀疏的架構支援（部署時間的原因）。稀疏性將在未來的設計中占有優先地位。

矩陣乘法單元的權重通過片上的權重fifo（weight fifo）進行快取，該fifo從片外8 gib dram讀取。由於是用於推論，權重為唯讀。8 gib可以同時支援許多模型。權重fifo的深度是4個tile。中間結果儲存在24 mib片上統一緩衝區（unified buffer）中，可以作為矩陣乘法單元的輸入。可程式設計dma實現和cpu host記憶體以及統一緩衝區傳輸資料。

下圖是tpu的平面圖，24mib的統一緩衝區幾乎佔了三分之一，矩陣乘法單元佔了四分之一，資料通路幾乎就是其中的三分之二。24mib的的尺寸是為了匹配矩陣單元的間距，受開發周期較短的限制，也是為了簡化編譯器。

隨著指令通過相對較慢的pcie匯流排傳送，tpu指令遵循cisc傳統，包括重複字段。這些cisc指令的每個指令（cpi）的平均時鐘週期通常為10到20.它總共有大約十個指令，但是這五個是關鍵指令：

1. read_host_memory從cpu記憶體中讀取資料存入統一緩衝區；

2. read_weights從權重記憶體中讀取權值存入權重fifo，作為矩陣單元的輸入；

3. matrimultiply/convolve使矩陣單元執行矩陣乘法或者計算從統一快取區到累加器的卷積；

4. activate執行人造神經元的非線性函式，例如relu、sigmoid等。它的輸入是累加器，輸出是同意緩衝區。它還可以使用晶元上的專用硬體執行卷積運算所需的池化操作，因為它連著非線性功能邏輯。

5. write_host_memory從統一緩衝區內讀取資料存入cpu主機記憶體

其他的指令是備用主機記憶體讀寫、設定配置、兩個同步版本、中斷主機、除錯標籤、無操作和停止。cisc matrixmultiply指令格式為12個位元組，其中3個為統一緩衝區位址; 2個是累加器位址; 4個是長度（有時對於卷積是2個維度）;其餘的是操作碼和標誌。

tpu

微架構的理念是保持矩陣單元的繁忙。它為這些

cisc

指令使用

4級流水線，其中每條指令在單獨的階段中執行。

該計畫是通過將其執行與

matrixmultiply

指令重疊來隱藏其他指令的執行。為此，

read_weights

指令遵循解耦訪問

/執行原理

，因為它可以在傳送位址之後，但是在從

weight memory

獲取權重之前完成。如果輸入啟用或重量資料尚未就緒，矩陣單元將停止。

cisc

指令可以占用數千個時鐘週期，與傳統的

risc

流水線不同，每個階段占用乙個時鐘週期。由於閱讀大型

sram

使用的功率比運算功率高得多，所以矩陣單元使用脈動執行來減少統一緩衝區的讀寫。這要根據從不同方向按一定時間間隔到達矩陣中單元格的資料來定，在矩陣中資料被組合在一起。

上圖顯示矩陣乘法單元的脈動資料流，資料從左側流入，權重從頂部載入。給定的

256元乘法累加運算通過矩陣作為對角波前移動。預先載入的權值與新塊的第乙個資料一起作用在資料流上。控制和資料被流水線化，看起來就好像給出的

256個輸入資料是一次讀取的，並且它們立即更新

256個累加器中的每乙個的位置的值。正常來說，上次軟體並不在乎矩陣單元的脈動性，但是考慮到效能問題，它更加在意各單元的延遲。

tpu

軟體堆疊必須與為

cpu和

gpu開發的軟體棧相容，以便應用程式可以快速移植到

tpu。在

tpu上執行的應用程式的一部分通常寫在

tensorflow

中，並被編譯成可以在

gpu或

tpu上執行的

api。像

gpu一樣，

tpu堆疊分為使用者空間驅動程式和核心驅動程式。核心驅動程式是輕量級的，只處理記憶體管理和中斷。它是為長期穩定而設計的。使用者空間驅動程式頻繁更改，完成的工作包括：配置並控制

tpu的執行、將資料重新格式化為

tpu命令、將

api呼叫轉換為

tpu指令，進而將其轉換為應用程式的二進位制檔案。使用者空間驅動程式在第一次評估時編譯模型，快取程式映像並將權重映像寫入

tpu的權重儲存器；第二次和接下來的評估則全速執行。

tpu從輸入到輸出完全可以執行大多數的模型，可以最大化

tpu計算時間與

i / o

時間的比率。計算通常每次進行一層，非同步執行允許矩陣乘法單元隱藏大多數非關鍵路徑操作。

TPU結構總結

TPU是什麼材料，tpu材料屬於塑料嗎

張量處理單元 TPU

TPU張量處理器

TPU結構總結

TPU是什麼材料，tpu材料屬於塑料嗎

張量處理單元 TPU

TPU張量處理器

相關推薦