快取與效率

在cpu多核的今天，考慮如何利用多核的問題已經擺在了每個程式設計師的面前。對乙個稍微有點經驗的程式設計師而言，omp無疑是最快的捷徑，並且收效非常高，基本能提公升1.8倍的效率(雙核cpu)。

耐著性子把omp的介紹文章看完了，在3d應用中實踐起來，收效很明顯，骨骼計算，**計算，頂點座標/紋理座標/法線插值上用得得心應手，一時興起，把關鍵部分的計算用sse指令重新寫過後，總體得到了大約4倍的效率提公升。

在這個過程中，發現了一些問題：

一、使用sse指令寫了乙個處理乙個資料的函式，同時也寫了乙個處理多個資料的函式。從通常的單執行緒思維來看，顯然減少函式呼叫開銷可以提公升效率。因此，處理一段資料採用了以下寫法：

//num_threads ：啟動的omp執行緒個數

int num_threads = omp_get_max_threads();

//spt : 每個執行緒分配到的資料

int spt = ucount / num_threads;

if(spt > 0)

}for(int i=num_threads * spt; isse_processdata(buff[i]);

測試結果差點沒讓我下巴脫臼,結果表明，這樣寫法的執行結果還不如單執行緒快。單執行緒**如下：

for(int i=0; i

而簡單的在單執行緒**前面加上omp指令，居然有了0.9倍左右(amd 3800+,雙核cpu)的效率提公升:

#pragma omp parallel for

for(int i=0; i

非常的不可思議。

本人不是特別追根問底的人，一切以實踐出發，同時記下一條規則：omp優化規則很好了，一些貌似聰明的小技巧不見得好使，老老實實用omp吧。在這個思路指引下，接下來的其他優化都很順暢，令人非常興奮，又開始了給老婆講解omp，mpi如何跟造鞋掛上關係的。加上白天喝了幾包咖啡，開始半夜半夜失眠了。

俗話說，常見江湖漂，哪能不挨刀，常在河邊走，哪有不濕鞋？在做射線與模型逐三角面相交的時候，omp又給我上了一課.按照之前的經驗,這回的**寫得很保守很規矩:

單執行緒**:

float fmaxdistance = flt_max;

int n******** = -1;

for(int i=0;i

}多執行緒**,典型的omp求最小值的翻版:

int ntt[2] = ;

float f[2] = ;

#pragma omp parallel for num_threads(2)

for(int i=0;i

}if(f[0] < f[1])

else

很高興的進行測試(本人單元測試習慣不錯),結果再次差點沒讓我下巴脫臼----效率有了大約1/8的下降!

而後反覆折騰,修改,是不是omp做了不應該的同步啦,變數是否合理的shared,private,或firstprivate了,查資料,上網,讀msdn.....十七般武藝都用盡了,基本處於放棄的邊沿的,終於想到使用最後的乙個**: asm.由於是測試效率,之前的所有編譯和測試都是在release版下進行的,彙編裡加入了omp的**後,更難於看懂,且很多變數都不知道值,這次更改為debug進行效率測試.很快,結果水落石出:

第一種情況

#pragma omp parallel for

for(int i=0; i

omp優化結果是

//thread 0:

for(int i=0; i

//thread 1:

for(int i=4; i

而第二種情況下,omp優化結果是:

//thread 0:

for(int i=0; i

//thread 1:

for(int i=ucount/2; i

顯然,差別在迴圈的方式上.至於為什麼omp的編譯結果有這種差別,其規則是什麼,現在是不得而知----顯然,跟上下文或使用指標的方式有關.要是哪位仁兄知道這些細節,煩請告知.

報著將信將疑的態度,將第二種情況的**修改如下：

int ntt[2] = ;

float f[2] = ;

#pragma omp parallel sections num_threads(2) }}

#pragma omp section }}

}if(f[0] < f[1])

else

(補充:上述**不是最終**,最終**是根據當前cpu核數目分組迴圈計算的.**不在手邊,且不複雜,就不呈上了)

也就是說，兩個執行緒，執行緒0處理奇數的三角面，執行緒1處理偶數個數的三角面。

測試結果表明，效率終於提公升了0.8倍多。

「嘿嘿嘿，哥們，你好歹已經過了而立之年了，怎麼寫文章還文不對題呢？」——讀者咆哮道，並且四處尋覓著鵝卵石或臭雞蛋。

「wusa...wusa...安靜，安靜，我一直都掛惦著標題呢！」----我舉起了早就準備好的雨傘。

why？why？why？

有一點在之前的文中我沒有提到：為了照顧gpu快取優化，我的所有模型資料都是針對geforce2快取16個頂點進行過快取優化的，也就是說，在cpu處理這些頂點的時候，同樣能享受到這樣的好處。在兩個執行緒中，同時處理兩個三角面，如果他們處理速度相同，則他們基本都在處理臨近的三角面，而這些臨近的三角面，無論是索引，還是頂點，都處於cpu的快取中的概率會相當大，快取實效帶來的效率下降比較小。而將資料分成兩段處理，則cpu需要同時快取四段記憶體(兩處索引，兩處頂點)，快取不夠大的情況下(amd的u本來快取就小)，快取實效帶來的效率下降就直接抵消了多執行緒的效率提公升，甚至變得更慢了！

為了驗證這點，我在載入模型的時候，將三角面索引隨機進行了替換，以打亂cpu快取頂點資料，再次測試表明，效率有了可觀的下降。

我沒有文不對題！

快取與效率

PHP檔案快取效率測試

PHP檔案快取效率測試

PHP檔案快取效率測試（一）

快取與效率

PHP檔案快取效率測試

PHP檔案快取效率測試

PHP檔案快取效率測試（一）

相關推薦