筆記 CUDA加速

cuda —— 由nvidia推出的通用平行計算架構

—— 該架構使gpu能夠解決複雜的計算問題

—— 包含了cuda指令集架構（isa）以及gpu內部的平行計算引擎

—— 開發人員現在可以使用c語言來為cuda架構編寫程式，將來還會支援其它語言，包括fortran以及c++

在科學計算領域所要用到的計算往往不是我們熟知的普通矩陣，而是千維甚至萬維的矩陣，而普通的cpu序列計算往往不能滿足與科學計算所要求的效能。最好的例子就是深度學習，可以說深度學習起源於感知機但正真發展在於計算能力的提高，也就是顯示卡計算的興起。深度學習的計算都是基於矩陣的計算，而普通乙個識別手寫數字的神經網路都有上千個隱含節點，故cuda效能優化是一門重要的技術。

首先，顯示卡可以加速最大的原因是其含有上千個cuda核心，而cpu的核心往往都在各位數，這就決定了顯示卡可以高度並行的對一些高維度矩陣進行計算。cpu的i/o需要數百上千個週期，序列的計算大部分時間都消耗在i/o上，而顯示卡則不然，nvidia顯示卡的架構是類似於simd架構的simt架構，t指的是threads，也就是單指令多執行緒架構，上乙個執行緒在進行運算操作時下乙個執行緒就開始i/o操作，類似於指令流水線的形式，當threads數量足夠多時，就可以遮蔽i/o所帶來的大量開銷，所以本身架構決定了cpu與顯示卡計算方式的區別。

cpu就好比是乙個身強體壯的大漢一下可以挑100公斤糧食，顯示卡好比是只能挑起10公斤糧食的小矮人，但有20個。現在有2000公斤糧食，i/o相當於需要1分鐘時間把糧食裝進桶才能挑走（每次只能乙個人裝桶），運算時間相當於挑一次到目的地需要20分鐘。cpu每趟需要21分鐘，共20趟，總共需要420分鐘。顯示卡第一趟也需要21分鐘，且只能挑10公斤糧食，但第一趟在剛裝完桶時，第二個小人就開始裝桶了，在第乙個小人送完時最後乙個小人也裝完了桶，接著第乙個小人又可以裝桶了，所以從共需要2000/10=200個輪迴，但每個輪迴只需要1分鐘，加上最後的小人需要20分鐘送完，總計200×1+20=220分鐘，比cpu快近一倍的時間。當運算需求越大時，gpu的優勢越明顯。

cuda高效能平行計算入門：

筆記 CUDA加速

CUDA加速學習

CUDA卷積加速一

kinectbridge啟用cuda加速

筆記 CUDA加速

CUDA加速學習

CUDA卷積加速 一

kinectbridge啟用cuda加速

相關推薦

CUDA卷積加速一