CUDA學習（九十三）

簡化gpu程式設計：

儲存空間的統一意味著主機和裝置之間不再需要顯式儲存器傳輸。在託管記憶體空間中建立的任何分配都會自動遷移到需要的位置。

程式以兩種方式之一分配託管記憶體：通過cudamallocmanaged（）例程，它在語義上類似於cudamalloc（）; 或者通過定義乙個全域性的__managed__變數，這個變數在語義上類似於__device__變數。這些檔案的精確定義見本文後面。

在具有計算能力6.x的裝置的支援平台上，unified memory將使應用程式能夠使用預設系統分配器分配和共享資料。這允許gpu在不使用特殊分配器的情況下訪問整個系統虛擬記憶體。

以下**示例說明了如何使用託管記憶體可以更改寫入主機**的方式。首先，乙個沒有統一記憶體利益的簡單程式：

__global__ void aplusb(int *ret, int a, int b) 
int main()

第乙個示例將gpu上的兩個數字與每個執行緒id結合在一起，並將數值返回到陣列中。如果沒有託管記憶體，則需要用於返回值的主機和裝置端儲存（在本例中為host_ret和ret），因為兩者之間使用cudamemcpy（）進行顯式拷貝。

將此與程式的統一記憶體版本進行比較，該版本允許從主機直接訪問gpu資料。注意cudamallocmanaged（）例程，它返回乙個有效來自主機和裝置**的指標。這允許在沒有單獨的host_ret副本的情況下使用ret，極大地簡化和減小了程式的大小。

__global__ void aplusb(int *ret, int a, int b) 
int main()

最後，語言整合允許直接引用gpu宣告的__managed__變數，並在使用全域性變數時進一步簡化程式。

__device__ __managed__ int ret[1000];
__global__ void aplusb(int a, int b) 
int main()