CUDA學習 Chapter 0 綜述

其實書上並沒有第0章啦，這篇東西是我自己寫的，談談cuda到底是什麼，以及cuda的基本使用和c之間的同異。

平行計算，是一種和序列計算有著本質區別的運算。根據傳統的計算機計算的理論，計算機處理的資料分為兩種，指令流和資料流，因此就有幾種不同的計算方式：

1.sisd，單指令單資料，也就是乙個指令對應乙個資料。

2.simd，單指令多資料，也就是乙個指令對應多個資料。

3.misd，多指令單資料，也就是多個指令對應乙個資料。

4.mimd，多指令多資料，也就是多個指令對應多個資料。

我們的平行計算，通常對應的就是simd，也就是乙個平行計算函式可以同時處理多個資料。

那這種是乙個規則下的平行計算。如果說我要同時對多個資料執行多條指令，那就是mimd。mimd需要處理指令的先後順序，確定可以並行處理的指令。是比simd要複雜得多的。

那麼在實際生活中，存在著很多平行計算，序列計算，並行和序列計算的例子。

序列計算：乙個學生在考試的時候依次做多道題目。

平行計算：多個學生同時在考試。

序列和並行混合計算：多個學生同時在考試，每個學生依次在做多道題目。

cuda，全稱compute unified device architecture，是英偉達公司推出的一款在gpu上進行平行計算的一組sdk。其主要的實現語言是c語言，但是在c語言的基礎上，新增了cuda特有的cuda c語法用於平行計算。根據cuda c的理論，平行計算是以simd方法進行的，其中的si（single instruction）被稱為核函式（kernel function）。而在cpu上執行的**，被稱為host code。gpu上執行的**，被稱為device code。

cuda是採用視訊記憶體的dram來進行平行計算的。視訊記憶體的dram我們稱之為全域性記憶體（global memory）。它將全域性記憶體分割成網格（grid），而網格裡面又有塊（block），塊裡面又有程序（thread），程序是處理資料的最小單元，也就是呼叫核函式的最基本的單元。

首先，cuda作為平行計算的框架，最重要的就是優化顯示卡的影象處理方面。一般來說，顯示卡處理輸出影象時（比如遊戲的實時畫面）都需要非常大的計算量。如果這些計算僅僅交給cpu和集顯來完成，運算能力是遠遠不夠的（cpu和集顯基本上都是序列，cpu的多核運算可以在一定程度上提公升效能）。gpu的多處理器的數量是cpu的處理器的數量的成千上萬倍，在大規模併發資料的計算能力也是cpu所不能比擬的。

並且cuda本身降低了程式設計人員使用平行計算的難度，特別是為追求高效能計算，並且擁有強大算力的gpu的使用者提供了可以發揮一技之長的能力。

再比如說，影象卷積。這個過程本身就可以使用gpu的對每個矩陣元素的卷積的大規模平行計算來極大地提公升速度。如果使用cpu，cpu要執行的計算量是非常大的。gpu本身的優勢不在於單個處理器的算力，事實上它的單個處理器的算力是非常弱的。但是gpu的優勢是在於它有很多這樣的小個子，湊起來就可以比cpu有著更加優越的效能。

1.時代前沿科技。

2.好玩。

3.降低了平行計算的難度，可以給我們節省寶貴的時間。

4.用平行計算寫**，可以提公升**的效率。

1.你們經常掛在嘴邊的深度學習，tensorflow已經使用cuda來使用gpu協助進行深度學習了，使用gpu的深度學習，所用的時間會比以前單純使用cpu學習短很多。目前的卷積神經網路計算量巨大，沒有一塊好的gpu，單純用cpu跑到天荒地老都跑不成。所以這也是目前深度學習火起來的原因（時間花銷比較短，商用成為可能）。

2.影象的處理，opencv已經開始使用gpu來加速各種影象處理的函式了。最有名的莫過於cufft庫，它提供了fft演算法的並行處理方法，使得對影象進行頻域上的操作更為簡單。（不會再出現一張2048*2048的lena要跑一晚上的事情發生了）

3.等待你自己去發現。

CUDA學習 Chapter 0 綜述

CUDA學習資源

CUDA學習（六十）

CUDA學習（五十）

CUDA學習 Chapter 0 綜述

CUDA學習資源

CUDA學習（六十）

CUDA學習（五十）

相關推薦