深入理解計算機系統優化程式效能（1）

1、優化編譯器的能力和侷限性

（1）編譯器有自己能夠優化程式的能力，但會有侷限性。

●指標指向記憶體的同一位置：

例如：

void twiddle1(long *xp, long *yp)
void twiddle2(long *xp, long *yp)

函式twiddle1需要6次記憶體引用（2次讀*xp，2次讀*yp，2次寫*xp），而函式twiddle2只需要3次記憶體引用（讀*xp，讀*yp，寫*xp），所以twiddle2的執行會更加有效。

但是，考慮到xp和yp相等的情況（即記憶體引用同乙個地方，指標指向同乙個位址），兩個函式的執行結果將不相等。

twiddle1將執行以下計算：

void twiddle1(long *xp, long *yp)

計算結果為xp增加4倍。

twiddle2將執行以下計算：

void twiddle2(long *xp, long *yp)

計算結果為*xp增加3倍。

這時，編譯器不會知道xp和yp是否相等，所以會考慮它們可能相等的情況，便不會產生優化的版本，這限制了可能的優化策略。

●函式呼叫：

long f();
long
count = 0;
long func1()
long func2()
long f()

函式func1()和func2()似乎是相同的，但是，當呼叫的函式f()中對全域性變數進行了改變後，func1()和func2()得到的結果便會不一樣，避免不必要的函式呼叫，將計算過程改為如下：

long funclin()

編譯器可以統一對全域性變數的更新，產生函式的優化版本如下：

long funclopt()

2、消除迴圈的低效率

分析下面兩個函式的效率：

void lower1(char *s)
}void lower2(char *s)
}

很明顯，當字串長度逐漸變長時，lower2的效能便會成為瓶頸，而且，編譯器並不知道strlen(s)的結果是否會變化（當迴圈裡面有對於字串從零變成非零或是從非零變成零時，長度會變化），便不會進行優化，需要我們手動進行優化。

3、消除不必要的迴圈引用

將迴圈內的指標使用盡可能的放在迴圈外面，例如：

void combine1()
}void combine2()
*dest = acc;
}

上面兩個函式中，combine1()迴圈內每次對記憶體進行兩次讀一次寫（在機器**中，指標的位址是存放在暫存器中，需要通過暫存器中的位址找到相應的位置，再找到相應的數），而combine2()則減少為一次讀（對data陣列的訪問）

深入理解計算機系統 優化程式效能（1）