乙個執行緒死鎖問題的分析

客戶報過來乙個問題，伺服器執行一周左右就會停止響應，有時候甚至兩天就不響應了，併發使用者量並不大，重啟服務後又工作正常。每當遇到這種問題時就有點兒棘手。一是這種問題的復現條件不好確定，另一方面，即使確定了條件，對於多執行緒的服務程式，也不好除錯。我遇到過的這種問題，大部分是靠讀**分析出來乙個可能的原因列表，然後一一驗證，最終找到真正的問題所在。

首先拿到服務執行日誌發現沒有任何錯誤訊息。

抓到trace發現，每個執行緒都沒有報錯誤，但是到了某一時刻就全部停止工作了。首先想到會不會和時間有關係，詢問客戶，停止響應的時間並不固定。

拿到服務停止時的各個執行緒的呼叫棧，發現所有的工作執行緒都停留在pthread_cond_wait上，看來執行緒之間同步處理有問題。

先嘗試復現一下，看看和特定的資料有沒有關係。同事寫了個多執行緒的客戶端，併發查詢伺服器，問題很快就出現了，這也暴漏了我們在測試方面的不足。

開始分析**，這段**其實有很多處理，非常複雜，寫了個簡單的示例**：

#define read_lock 1

int get_data_from_cache(int index, entrydata** entry)

int release_lock_for_entry(entrydata* entry, type)

--ed->locked_state；

break; }

} }pthread_cond_broadcast(global_data->cond_var);

pthread_mutex_unlock (global_data->lock_var);

return 0; }

int thread_main()

這段**先從cache中把資料取出來，同時加鎖(locked_state)，進行處理後再釋放鎖。pthread_cond_wait使執行緒進入等待狀態，當有另乙個執行緒呼叫pthread_cond_signal或者pthread_cond_broadcast時，等待的執行緒才會被啟用。

**中對應的pthread_cond_broadcast是有的，而且正常流程下會執行到，沒有問題。

然後看什麼條件下會進入pthread_cond_wait，當locked_state不等於read_lock時，也就是當有多個執行緒同時讀取同一條entry時。但是第乙個執行緒會呼叫pthread_cond_broadcast，觸發第二個執行緒執行，然後第二個執行緒呼叫pthread_cond_broadcast，觸發第三個執行緒執行，如此反覆，不會所有的執行緒都等待。

如果第乙個執行緒也進入等待狀態，那麼所有的執行緒就都只能等待，伺服器就不能響應了。有什麼原因導致以乙個執行緒直接進入等待狀態呢？也是locked_state不等於read_lock時。這是第乙個執行緒，而且對於locked_state的修改都有mutex封裝。不會同時又多個執行緒更改locked_state.

多看幾遍**發現，修改locked_state(即

get_data_from_cache)和判斷locked_state（即

release_lock_for_entry）雖然都在mutex中，但是它們在不同的函式裡，兩個函式之間還有一塊**（即

// process the data部分）不在mutex的保護之中。設想這樣一種情況，當第乙個執行緒取出entry並修改locked_state後，開始處理資料，這時第二個執行緒讀取資料，同時修改了locked_state，此時locked_state不再是read_lock了，然後第乙個執行緒處理完畢開始釋放鎖，由於locked_state不是read_lock，所以第乙個執行緒開始進入pthread_cond_wait等待。可是第乙個執行緒等待了，其他的工作執行緒就都等待了。沒有執行緒處理新的請求了，伺服器也就不響應了。

找到了問題原因，就好修改了。

有乙個啟發：服務停止時的各個執行緒的呼叫棧，發現所有的工作執行緒都停留在pthread_cond_wait上

學習這種除錯方法。

乙個執行緒死鎖問題的分析

乙個死鎖問題

乙個模擬死鎖的多執行緒

乙個MySQL死鎖問題的反思

乙個執行緒死鎖問題的分析

乙個死鎖問題

乙個模擬死鎖的多執行緒

乙個MySQL死鎖問題的反思

相關推薦