字串基數排序

對字串使用基數排序，以前，我一直覺得：因為字串的長度不一，無法使用基數排序。前兩天因為有需要，忽然想通了！即便長短不一，也可以使用鏈式基數排序！

首先，將字串長度當作最低有效位，因為基數排序是從最低有效位開始排的，就先用分配-收集演算法對長度做一趟。對字串中的具體某一位字元進行排序相比，演算法是一樣的，只是寫法稍有不同。要將排序結果的lenradix指標儲存起來，後面要用。

接下來，從lenradix中取字串最長的那個sublist，對該sublist排序，然後將這一趟的結果first儲存起來，連線到長度次短的那個sublist之後，然後對這兩個鏈結起來的列表進行一趟分配-收集。如此，直到最高有效位。

所有的工作就做完了，根據此演算法，對所有待排序字串中的每個字元，均需要一次且僅一次訪問！另外，還需要o((radix+1)*max_str_len)的時間複雜度用於掃瞄鏈結表，(radix+1)是因為還有乙個strlen鏈結表。所以，總的時間複雜度是o(n+(radix+1)*max_str_len)，其中n是所有字串的總字元數。

在排序過程中，可以插入乙個codetab，來實現不同的排序準則（例如忽略大小寫），如果提供了wchar_t codetab，就按 wchar_t 排序，如果wchar_t codetab 非 null，就按轉換了的 wchar_t 排序。

如果對unicode排序，最好指定乙個codetab，把radix變小，不然的話，時間複雜度就太大了！

經過測試，在大約20000~30000個字串的情況下，比std::sort快5~7倍。資料規模再增大，至5,000,000個字串時，比std::sort大概快1.8~2.5倍！

**：

測試(bench mark)**：

字串基數排序

字串基數排序

排序基數排序

排序基數排序

字串基數排序

字串基數排序

排序 基數排序

排序 基數排序

相關推薦

排序基數排序

排序基數排序