CUDA學習（四）整體結構

本文參考：《cuda programming guides》，《professional cuda c programming》

整體結構將主要分為邏輯結構，物理結構兩個方面進行理解：

首先一定要對怎麼cpu與gpu異構模型有一定的了解，cpu 與 gpu通過中間的pci匯流排進行連線和傳輸。根據前文nvcc的編譯過程，我們可以了解到，乙個.cu檔案經過編譯之後會更具不同的硬體轉化為其相對應的2進製檔案，分開傳到cpu 和 gpu進行非同步執行。如下圖：

為了方便程式設計和理解，cuda根據gpu硬體設計了相應的程式設計模型，分別分為 grid、block、thread三個層次，如圖：

乙個grid中有多個block，乙個block有多個執行緒。他們具有層次性，且他們有各自的操作範圍，可以設定不同的維度，有利於程式的控制與理解。結合上面的異構模型，當主程式傳送乙個核心函式時，就是傳送對應乙個grid。這裡可以人為便於自己的定義block，thread的數量和維數。

為什麼會有利於程式的控制理解呢？首先要先理解2個圖：

每個thread都分配有相應的暫存器和本地記憶體。在乙個block中又有乙個共享記憶體，對於block內的thread時可見的，且shared memory的讀取速度很快。對於整個grid有供所有block和thread訪問的全域性、常量、紋理記憶體，後兩個記憶體是對thread唯讀的，且只能通過host端進行賦值設定。

初步了解了cuda的邏輯模型，那這些thread是怎麼進行執行的呢？

還是以圖來理解比較直觀，乙個gpu有多個流式多處理器（sm ：streaming multiproeessors ）組成，如圖：

乙個sm多個cuda核心，每個cuda核心能並行執行乙個thread。此外可以看到（左圖）sm圖中有2個執行緒束排程器，乙個sm的排程單位就是乙個warp：32*thread（程序束 = 32個執行緒）進行執行的，也就是說乙個sm最多同時執行32個thread。多個sm就構成了乙個gpu。

結合右圖和上面的邏輯結構內容，我們可以更好理解邏輯結構與裝置結構的對應關係。乙個grid（網格）會被對映到整個gpu，乙個grid中的多個block會被分配到不同的sm中；乙個block會被切割成多個warp，這意味著乙個sm可以"併發"執行多個block，可以「併發」執行多個warp；在一般情況下，thread會佔據sm的所有cuda核心，進行並行運算。

注意：每個sm的暫存器和shared memory都是有限的，當乙個block的thread很多時，每個thread被分配的暫存器就少了。同理，更多的block那每個block就有更少的shared memory。

CUDA學習（四）整體結構

CUDA學習（四）初探

CUDA學習系列教程（四）

Fabric學習 Fabric整體專案結構介紹

CUDA學習（四） 整體結構

CUDA學習（四）初探

CUDA學習系列教程（四）

Fabric學習 Fabric整體專案結構介紹

相關推薦

CUDA學習（四）整體結構