cuda程式設計

參照

一、gpu與cpu的聯絡與區別

gpu上可以進行資料結構統一的運算，gpu上整合大量相對cpu邏輯計算單元簡單的計算部件，利於序列。

cpu上可以邏輯計算、流程控制等複雜的過程，利於並行。

總而言之，gpu是乙個「人多力量大」的部件，而cpu是乙個「單兵作戰力強」的部件。

基於cpu+gpu的異構計算平台優勢互補，cpu負責處理邏輯複雜的序列程式，而gpu重點處理密集型的平行計算程式，從而發揮最大功效（異構計算指的是在cpu上控制，gpu上計算）。

cuda程式設計可支援的語言：c/c++ python fortran

二、cuda程式設計

1、在cuda中cpu成為host，gpu稱為device，同時gpu和cpu直接可以相互通訊

2、典型的cuda程式的執行流程如下：

（1）分配host記憶體，並進行資料初始化

（2）分配device記憶體，同時將host的資料拷貝到device上

（3）在device上呼叫核函式完成指定運算

（4）將device運算結果拷貝到host上

（5）釋放host和device所申請的記憶體空間

3、核函式：核函式是可以在device上平行計算的函式，在呼叫的時候需要指明網格（grid）數和block數，同時函式內必須指明執行緒的id。核函式的關鍵字如下：

4、cuda中的層級結構

乙個核函式所啟動的所有執行緒稱為乙個網格（grid），乙個網格包含多個block，乙個block中包含著多個執行緒。

kernel中所有的執行緒在邏輯上是並行，但是在物理上能否並行取決於內部資源。當kernel被執行的時候，kernel中所有的執行緒數就會被分配到流式多處理器sm上（乙個執行緒塊只能在乙個sm上執行，乙個sm上可以處理多個執行緒塊）。

5、可以借助於cuda的統一記憶體來避免複雜且繁瑣的資料拷貝過程，但需要注意的一點是在使用了統一記憶體託管記憶體之後，需要呼叫 cudadevicesynchronize()函式使得host與device同步，保證正確訪問kernel的計算結果。