搜尋引擎 平移演算法簡介

2021-04-02 01:03:29 字數 458 閱讀 1892

在開發新聞搜尋引擎的時候,出現乙個問題就是有很多的新聞屬於**的形式,要判斷新聞是否**,經過實驗,我發現可以用「平移」演算法來實現。

以上兩個新聞是**同一**,但是略做了更動,根據平移演算法,我們固定乙個字串,然後將另外乙個字串從末尾對應第一字串的開頭進行平移,然後計算兩個字串之間的交集。如果字元完全一樣則為1,不一樣為0,將所有的值加起來。

可以看到當b和a平移到一定的位置的時候能夠找到最大的重疊度。上例是14個連續字元。

相識性:ab重疊部分/(a的長度 + b的長度 - ab重疊的長度)

14/ (33+25-14) = 31%

平移演算法的功能:

2] 可以發現主題,發現核心內容。

例如實現匹配的部分,上例是

是完全匹配的部分,就是相識文章的最核心的內容。

作者blog:http://blog.csdn.net/dazern/

搜尋引擎營銷簡介

搜尋引擎營銷是什麼?其中自然搜尋的結果就是搜尋結果頁面,要讓您的 能夠出現在搜尋結果頁面較前面的位置,就需要進行搜尋引擎優化 或者搜尋引擎最佳化 搜尋引擎排名最佳優化 搜尋引擎排名最佳化 而搜尋結果裡,如果這個關鍵字有相關廣告,就還包括了關鍵字廣告鏈結。因此進行搜尋引擎營銷就是跟搜尋引擎優化與關鍵字...

網路搜尋引擎原理簡介

據中國網際網路絡資訊中心統計,目前搜尋引擎是僅次於電子郵件的第二大inter 的應用。搜尋引擎技術的研究與應用逾來逾廣,正成為計算機工業界和學術界爭相研究和開發的物件。搜尋引擎雖然品種繁多 功能不一,但是它們的總體結構和基本的工作原理都是一樣的。每個搜尋引擎都有三個部分組成 1 在inter 上採集...

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...