搜尋引擎中的URL雜湊

2021-04-15 07:31:32 字數 428 閱讀 7256

雜湊(

hash

一般情況下所有雜湊函式,如果其原始字串很相似則雜湊位址衝突的機率就加大,所以同乙個**下的網頁url衝突的機率也就很大,特別是那些帶引數的動態網頁url。所以我可以將原始的url進行一次標準化處理後再做雜湊這樣就會有很大的改善,本人通過大量的實驗發現先對url進行一次md5的加密,然後再對加密後的這個串再雜湊這樣大大提高了雜湊的效率。下面是一些實驗結果。(100網頁位址空間,而10萬的網頁url)。 方法

url長度(20個字元)

url長度(128個字元)

直接雜湊

6000多次

8萬多次

md5後再雜湊

少於500次

少於500次

可見url長度越長直接雜湊其衝突率越高,因為其雜湊值過於集中。而採用md5再雜湊的方法明顯對雜湊位址起到了乙個均勻發布的作用。

搜尋引擎優化 URL重寫

rhel下弄得我半夜腦子裡全是命令,halt都停不下來,直接失眠了。昨天一天不敢進紅帽系統,在windows下研究負載均衡理論寫了一天 明天就能動手試試了,晚上看了些seo優化,動手試了試,雖不多也是學習啊。常規的php字串操作函式的執行比正規表示式要快很多,因此只有需要的時候才使用後者。例如,如果...

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...