乙個矩陣乘法的問題

問題：1024階雙精度浮點矩陣相乘，矩陣滿秩

經典**：

for (i = 0; i < n; i++)
}}

這是比較經典的方式，發現乙個問題，1024階的時間居然比1025階的時間多不少，很令人費解，於是加了一些類似gettimeofday這種函式統計計算每乙個行，每乙個結果的時間，發現在1024的時候沒隔一定個數的元素，時間都會有乙個比較大的增加（一般是加倍），而1025則不會，個人的猜想是cache造成的影響，1024的情況，每行正好是cache line size的整數倍，而1025則不是，可能會有一些預取，而在這種乘法訪問順序的情況下，會出現「跳著」訪問，這樣這些預取就會使得效能有所提公升。

對原有乘法做一些改變：

for (i = 0; i < n; i++)
}}

師兄說這是乙個比較經典的矩陣相乘方法，自習想了想才想通，字面上看是把二三層的迴圈調換了一下順序，其實把加法均攤，實現了對a陣列、b陣列都順序訪問，這樣就是cache效能提公升了很多，整體效能就提公升了，而且這樣修改後，1025和1024的時間也正常了，階數多的時間長。

完整**：

#include #include 
#include 
//#define n 1023
int main(int argc, char*argv)
}gettimeofday(&start, null);
for (i = 0; i < n; i++)}}
gettimeofday(&end, null);
printf(
"line %d\t%d\n
", i, 1000000*(end.tv_sec - start.tv_sec) + end.tv_usec -start.tv_usec);
free(a);
free(b);
free(c);
return0;
}

乙個矩陣乘法的問題

乙個用GPU寫的矩陣乘法

矩陣乘法問題

由乙個矩陣得到乙個掩模矩陣

乙個矩陣乘法的問題

乙個用GPU寫的矩陣乘法

矩陣乘法問題

由乙個矩陣得到乙個掩模矩陣

相關推薦