程序和執行緒

很多同學都聽說過，現代作業系統比如mac os x，unix，linux，windows等，都是支援「多工」的作業系統。

什麼叫「多工」呢？簡單地說，就是作業系統可以同時執行多個任務。打個比方，你一邊在用瀏覽器上網，一邊在聽***，一邊在用word趕作業，這就是多工，至少同時有3個任務正在執行。還有很多任務悄悄地在後台同時執行著，只是桌面上沒有顯示而已。

現在，多核cpu已經非常普及了，但是，即使過去的單核cpu，也可以執行多工。由於cpu執行**都是順序執行的，那麼，單核cpu是怎麼執行多工的呢？

答案就是作業系統輪流讓各個任務交替執行，任務1執行0.01秒，切換到任務2，任務2執行0.01秒，再切換到任務3，執行0.01秒……這樣反覆執行下去。表面上看，每個任務都是交替執行的，但是，由於cpu的執行速度實在是太快了，我們感覺就像所有任務都在同時執行一樣。

真正的並行執行多工只能在多核cpu上實現，但是，由於任務數量遠遠多於cpu的核心數量，所以，作業系統也會自動把很多任務輪流排程到每個核心上執行。

對於作業系統來說，乙個任務就是乙個程序（process），比如開啟乙個瀏覽器就是啟動乙個瀏覽器程序，開啟乙個記事本就啟動了乙個記事本程序，開啟兩個記事本就啟動了兩個記事本程序，開啟乙個word就啟動了乙個word程序。

有些程序還不止同時幹一件事，比如word，它可以同時進行打字、拼寫檢查、列印等事情。在乙個程序內部，要同時幹多件事，就需要同時執行多個「子任務」，我們把程序內的這些「子任務」稱為執行緒（thread）。

由於每個程序至少要幹一件事，所以，乙個程序至少有乙個執行緒。當然，像word這種複雜的程序可以有多個執行緒，多個執行緒可以同時執行，多執行緒的執行方式和多程序是一樣的，也是由作業系統在多個執行緒之間快速切換，讓每個執行緒都短暫地交替執行，看起來就像同時執行一樣。當然，真正地同時執行多執行緒需要多核cpu才可能實現。

我們前面編寫的所有的python程式，都是執行單任務的程序，也就是只有乙個執行緒。如果我們要同時執行多個任務怎麼辦？

有兩種解決方案：

一種是啟動多個程序，每個程序雖然只有乙個執行緒，但多個程序可以一塊執行多個任務。

還有一種方法是啟動乙個程序，在乙個程序內啟動多個執行緒，這樣，多個執行緒也可以一塊執行多個任務。

當然還有第三種方法，就是啟動多個程序，每個程序再啟動多個執行緒，這樣同時執行的任務就更多了，當然這種模型更複雜，實際很少採用。

總結一下就是，多工的實現有3種方式：

同時執行多個任務通常各個任務之間並不是沒有關聯的，而是需要相互通訊和協調，有時，任務1必須暫停等待任務2完成後才能繼續執行，有時，任務3和任務4又不能同時執行，所以，多程序和多執行緒的程式的複雜度要遠遠高於我們前面寫的單程序單執行緒的程式。

python既支援多程序，又支援多執行緒，我們會討論如何編寫這兩種多工程式。

執行緒是最小的執行單元，而程序由至少乙個執行緒組成。如何排程程序和執行緒，完全由作業系統決定，程式自己不能決定什麼時候執行，執行多長時間。

多程序和多執行緒的程式涉及到同步、資料共享的問題，編寫起來更複雜。

我們介紹了多程序和多執行緒，這是實現多工最常用的兩種方式。現在，我們來討論一下這兩種方式的優缺點。

首先，要實現多工，通常我們會設計master-worker模式，master負責分配任務，worker負責執行任務，因此，多工環境下，通常是乙個master，多個worker。

如果用多程序實現master-worker，主程序就是master，其他程序就是worker。

如果用多執行緒實現master-worker，主線程就是master，其他執行緒就是worker。

多程序模式最大的優點就是穩定性高，因為乙個子程序崩潰了，不會影響主程序和其他子程序。（當然主程序掛了所有程序就全掛了，但是master程序只負責分配任務，掛掉的概率低）著名的apache最早就是採用多程序模式。

多程序模式的缺點是建立程序的代價大，在unix/linux系統下，用fork呼叫還行，在windows下建立程序開銷巨大。另外，作業系統能同時執行的程序數也是有限的，在記憶體和cpu的限制下，如果有幾千個程序同時執行，作業系統連排程都會成問題。

在windows下，多執行緒的效率比多程序要高，所以微軟的iis伺服器預設採用多執行緒模式。由於多執行緒存在穩定性的問題，iis的穩定性就不如apache。為了緩解這個問題，iis和apache現在又有多程序+多執行緒的混合模式，真是把問題越搞越複雜。

無論是多程序還是多執行緒，只要數量一多，效率肯定上不去，為什麼呢？

我們打個比方，假設你不幸正在準備中考，每天晚上需要做語文、數學、英語、物理、化學這5科的作業，每項作業耗時1小時。

如果你先花1小時做語文作業，做完了，再花1小時做數學作業，這樣，依次全部做完，一共花5小時，這種方式稱為單任務模型，或者批處理任務模型。

假設你打算切換到多任務模型，可以先做1分鐘語文，再切換到數學作業，做1分鐘，再切換到英語，以此類推，只要切換速度足夠快，這種方式就和單核cpu執行多工是一樣的了，以幼兒園小朋友的眼光來看，你就正在同時寫5科作業。

但是，切換作業是有代價的，比如從語文切到數學，要先收拾桌子上的語文書本、鋼筆（這叫儲存現場），然後，開啟數學課本、找出圓規直尺（這叫準備新環境），才能開始做數學作業。作業系統在切換程序或者執行緒時也是一樣的，它需要先儲存當前執行的現場環境（cpu暫存器狀態、記憶體頁等），然後，把新任務的執行環境準備好（恢復上次的暫存器狀態，切換記憶體頁等），才能開始執行。這個切換過程雖然很快，但是也需要耗費時間。如果有幾千個任務同時進行，作業系統可能就主要忙著切換任務，根本沒有多少時間去執行任務了，這種情況最常見的就是硬碟狂響，點視窗無反應，系統處於假死狀態。

所以，多工一旦多到乙個限度，就會消耗掉系統所有的資源，結果效率急劇下降，所有任務都做不好。

是否採用多工的第二個考慮是任務的型別。我們可以把任務分為計算密集型和io密集型。

計算密集型任務由於主要消耗cpu資源，因此，**執行效率至關重要。python這樣的指令碼語言執行效率很低，完全不適合計算密集型任務。對於計算密集型任務，最好用c語言編寫。

第二種任務的型別是io密集型，涉及到網路、磁碟io的任務都是io密集型任務，這類任務的特點是cpu消耗很少，任務的大部分時間都在等待io操作完成（因為io的速度遠遠低於cpu和記憶體的速度）。對於io密集型任務，任務越多，cpu效率越高，但也有乙個限度。常見的大部分任務都是io密集型任務，比如web應用。

io密集型任務執行期間，99%的時間都花在io上，花在cpu上的時間很少，因此，用執行速度極快的c語言替換用python這樣執行速度極低的指令碼語言，完全無法提公升執行效率。對於io密集型任務，最合適的語言就是開發效率最高（**量最少）的語言，指令碼語言是首選，c語言最差。

考慮到cpu和io之間巨大的速度差異，乙個任務在執行的過程中大部分時間都在等待io操作，單程序單執行緒模型會導致別的任務無法並行執行，因此，我們才需要多程序模型或者多執行緒模型來支援多工併發執行。

現代作業系統對io操作已經做了巨大的改進，最大的特點就是支援非同步io。如果充分利用作業系統提供的非同步io支援，就可以用單程序單執行緒模型來執行多工，這種全新的模型稱為事件驅動模型，nginx就是支援非同步io的web伺服器，它在單核cpu上採用單程序模型就可以高效地支援多工。在多核cpu上，可以執行多個程序（數量與cpu核心數相同），充分利用多核cpu。由於系統總的程序數量十分有限，因此作業系統排程非常高效。用非同步io程式設計模型來實現多工是乙個主要的趨勢。

對應到python語言，單程序的非同步程式設計模型稱為協程，有了協程的支援，就可以基於事件驅動編寫高效的多工程式。我們會在後面討論如何編寫協程。

程序和執行緒

執行緒和程序

程序和執行緒

執行緒和程序

程序和執行緒

執行緒和程序

程序和執行緒

執行緒和程序

相關推薦