記大日誌檔案如何查詢每個搜尋關鍵字出現的次數

hash演算法有還哪些用途？ hash演算法得到的hash值不可逆的哦

1、安全加密

2、唯一性校驗

3、資料驗證

4、雜湊函式

5、負載均衡

6、資料分片

7、分布式儲存

問題

負載均衡:

在nginx中有負載均衡的演算法，有隨機、輪巡、加權、源位址hash法(通過hash演算法實現，得到機器編號)

資料分片：

主要用到了hash演算法

通過hash演算法得到乙個雜湊值，通過對某個值進行取模得到最終結果

的結果。

2、如何判斷乙個是否在相簿中？

假設現在我們的相簿中有 1 億張，很顯然，在單台機器上構建雜湊表是行不通的。因為單台機器的記憶體有限，而 1 億張構建雜湊表顯然遠遠超過了單台機器的記憶體上限。

我們同樣可以對資料進行分片，然後採用多機處理。我們準備 n 臺機器，讓每台機器只維護某一部分對應的雜湊表。我們每次從相簿中讀取乙個，計算唯一標識，然後與機器個數 n 求餘取模，得到的值就對應要分配的機器編號，然後將這個的唯一標識和圖片路徑發往對應的機器構建雜湊表。

當我們要判斷乙個是否在相簿中的時候，我們通過同樣的雜湊演算法，計算這個的唯一標識，然後與機器個數 n 求餘取模。假設得到的值是 k，那就去編號 k 的機器構建的散列表中查詢。

現在，我們來估算一下，給這 1 億張構建雜湊表大約需要多少臺機器。

雜湊表中每個資料單元包含兩個資訊，雜湊值和檔案的路徑。假設我們通過 md5 來計算雜湊值，那長度就是 128 位元，也就是 16 位元組。檔案路徑長度的上限是 256 位元組，我們可以假設平均長度是 128 位元組。如果我們用煉表法來解決衝突，那還需要儲存指標，指針只占用 8 位元組。所以，雜湊表中每個資料單元就占用 152 位元組(這裡只是估算，並不准確)。

假設一台機器的記憶體大小為 2gb，雜湊表的裝載因子為 0.75，那一台機器可以給大約 1000 萬(2gb*0.75/152)張構建雜湊表。所以，如果要對 1 億張構建索引，需要大約十幾台機器。在工程中，這種估算還是很重要的，能讓我們事先對需要投入的資源、資金有個大概的了解，能更好地評估解決方案的可行性。

實際上，針對這種海量資料的處理問題，我們都可以採用多機分布式處理。借助這種分片的思路，可以突破單機記憶體、cpu 等資源的限制。

記大日誌檔案如何查詢每個搜尋關鍵字出現的次數

關鍵字搜尋查詢列表

linux搜尋關鍵字檢視日誌

Python查詢涉密關鍵字檔案

記 大日誌檔案如何查詢每個搜尋關鍵字出現的次數

關鍵字搜尋查詢列表

linux搜尋關鍵字檢視日誌

Python查詢涉密關鍵字檔案

相關推薦

記大日誌檔案如何查詢每個搜尋關鍵字出現的次數