儲存器的層次結構

儲存技術

我們在買電腦時都會關注記憶體、處理器、硬碟等部件的效能，都想記憶體盡可能大，硬碟最好是固態的。

不知道你有沒有遇到過自己寫了大半天的文件，因為不小心突然關機了，自己辛苦忙活了幾個小時的成果又得重寫的情況。可是你是否想過為什麼關機了就會丟失這些資訊呢？為什麼硬碟上的檔案沒有丟？

會丟的那部分資訊肯定是和電有關係的，不然也不會一斷電就丟資訊。記憶體就是這樣的部件，更專業一點的稱呼是隨機訪問儲存器。

隨機訪問儲存器（ram）分靜態和動態的兩種，靜態 ram 是將資訊儲存在乙個雙穩態的儲存單元裡。什麼叫雙穩態呢？就是只有兩種穩定的狀態，雖然也有其它狀態，但即使細微的擾動，也會讓它立馬進入乙個穩定的狀態。

動態 ram 使用的是電容來儲存資訊，學過物理的都知道電容這個概念，它很容易就會漏電，使得動態 ram 單元在 10~100 ms 時間內就會丟失電荷（資訊），但是不要忘記，計算機的執行時間是以納秒計算的，1 ghz 的處理器的時鐘週期就是 1 ns，更何況現在的處理器都不止 1 ghz，所以 ms 相對於納秒來說是很長的，計算機不用擔心會丟失資訊。

動態 ram 晶元就封裝在記憶體模組中，比記憶體更大的儲存部件是磁碟，發現自己在舊文你真的了解硬碟嗎？對磁碟總結的已經不錯了，就直接過渡到區域性性上面去了吧。

區域性性區域性性通常有兩種不同的形式：時間區域性性和空間區域性性。在乙個具有良好時間區域性性的程式中，被引用過一次的記憶體位置很可能在不遠的將來會再被多次引用；同樣在乙個具有良好空間區域性性的程式中，如果乙個記憶體被引用了一次，那麼程式很可能在不遠的將來引用附近的乙個記憶體位置。

不要小看區域性性，區域性性好的程式會比區域性性差的程式執行的更快，要往高階程式設計師走，這是肯定需要了解的。我們選擇把一些常用的檔案從網盤下下來，利用的就是時間區域性性。

下面這段**，再簡單不過，我們僅觀察一下其中的v向量，向量v的元素是乙個接乙個被讀取的，即按照儲存在記憶體中的順序被讀取的，所以它有很好的空間區域性性；但是每個元素都只被訪問一次，就使得時間區域性性很差了。實際上對於迴圈體中的每個變數，這個函式要麼具有好的空間區域性性，要麼具有好的時間區域性性。

int
sumvec
(int v[n])
return sum;
}複製**

像上面的**，每隔 1 個元素進行訪問，稱之為步長為 1 的引用模式。一般而言，隨著步長的增加，空間區域性性下降。

當然，不僅資料引用有區域性性，取指令也有區域性性。比如for迴圈，迴圈體中的指令是按順序執行的，並且會被執行多次，所以它有良好的空間區域性性和時間區域性性。

快取記憶體

不同儲存技術的訪問時間差異很大，而我們想要的是又快又大的體驗，然而這又是違背機械原理的。為了讓程式執行的更快，計算機設計者在不同層級之間加了快取，比如在 cpu 與記憶體之間加了快取記憶體，而記憶體又作為磁碟的快取，本地磁碟又是 web 伺服器的快取。多次訪問乙個網頁，會發現有一些網路請求的狀態碼是 300，這就是從本地快取讀取的。

如下圖所示，快取記憶體通常被組織為下面的形式，計算機需要從具體的位址去拿指令或者資料，而這個位址也被切分為不同的部分，可以直接對映到快取上去。看下面詳細的介紹應該更容易理解。

直接對映快取記憶體每個組只有一行。快取記憶體確定乙個請求是否命中，然後抽取出被請求的字的過程分為：組選擇、行匹配、字抽取三步。

比如當 cpu 執行一條讀記憶體字w的指令，首先從w位址中間抽取出s個組索引位，對映到對應的組，然後通過t位標記確定是否有字w的乙個副本儲存在該組中；最後使用b位的塊偏移確定所需要的字塊是從**開始的。

上面這個圖，還有下面這個表，對應著看，由於能力有限，感覺怎麼都講不好，多盯著一會兒，應該就會獲得一種豁然開朗之感。

直接對映快取記憶體造成衝突不命中的原因在於每個組只有一行，組相聯快取記憶體放鬆了這一限制，每個組都儲存多於一行的快取記憶體行，所以在組選擇完成之後，需要遍歷對應組中的行進行行匹配。

當然，我們可以把每個組中的快取行數繼續擴大，即全相聯快取記憶體，所有的快取行都在乙個組，它總共只有乙個組。因此對位址的劃分就不需要組索引了，如下圖所示。

編寫快取友好的**

float
dotprod
(float x[8], float y[8])
return sum;
}複製**

這段函式很簡介，就是計算兩個向量點積的函式，而且對於x和y來說，這個函式具有很好的空間區域性性，如果使用直接對映快取記憶體，那它的快取命中率並不高。

從表中就能看到，每次對x和y的引用都會導致衝突不命中，因為我們在x和y的塊之間抖動，即快取記憶體反覆的載入替換相同的快取記憶體塊組。

我們只需要做乙個小小的改動，就能讓命中率大大提高，即讓程式執行的更快。這個改動就是把float x[8]改為floatx[12]，改動後的索引對映就變成下面那樣了，非常的友好。

再來看乙個多維陣列，函式的功能是對所有元素求和，兩種不同的寫法。

// 第一種
intsumarrayrows
(int a[m][n])
}return sum;
}// 第二種
intsumarrayrows
(int a[m][n])
}return sum;
}複製**

從程式語言角度來看，兩種寫法的效果是一樣的，都是求陣列所有元素的和，但是深入分析就會發現，第一種寫法會比第二種執行的更快，因為第二種寫法一次快取命中都不會發生，而第一種寫法會有 24 次快取命中，所以第一比第二種執行更快是必然的結果，第一種和第二種的快取命中模式分別如下所示（粗體表示不命中）。

儲存器的層次結構

儲存器層次結構

儲存器層次結構

儲存器層次結構

儲存器的層次結構

儲存器層次結構

儲存器層次結構

儲存器層次結構

相關推薦