平行計算效能分析

第乙個效能當然是速度，還有兩個：

延時：完成指定工作所需要的時間

吞吐率：單位時間內完成的工作量

開發並行性通常能改進吞吐率。

開發並行可以隱藏延時，當然並沒有真正的減少延時，只是隱藏了延時的代價，因為它「與其等待，不如去計算其餘部分」。

平行計算比序列計算要建立更多執行緒而帶來額外開銷，建立程序的開銷遠大於執行緒，這是因為儲存器的分配和初始化非常昂貴。

執行緒（或程序）間的通訊是開銷的主要部分。

儲存器的頻寬也限制了平行計算的速度，比如當cpu讀dram時可能出現延時（當要載入的資料量很大，cache容不下時，cpu就不得不讀取dram）。儲存器頻寬約束不多核計算中的特別問題，這通常受限於晶元的邊界。

避免過早的優化：這裡要講90/10規則，即90%的程式執行時間花在10%的**上。開始時不加任何修飾地編寫**，如果效能需要改進，把執行時間最長的那10%時間識別出來，對其進行重寫，重寫時也許要使用c語言或組合語言。

在科學計算中通常採用flops指標，即私刑秒學點數操作(floating-point operations per second)。

極少情況下會出現超線性加速比（superline speedup）：使用p個處理器，並行的速度比序列的速度快p倍。基本的解釋是並行的計算執行了較少的工作，比如並行執行時資料都駐留在每個處理的cache中，而順序執行時必須訪問儲存器。

當核數增張時，核之間的通訊延時也會增張。並且ram和核之間的頻寬是有限的。