46 初識搜尋引擎 相關度評分TF IDF演算法解密

2021-10-03 04:16:30 字數 1167 閱讀 9369

relevance score演算法,簡單來說,就是計算出,乙個索引中的文字,與搜尋文字,他們之間的關聯匹配程度

elasticsearch使用的是term frequency/inverse document frequency演算法,簡稱為tf/idf演算法

例如:搜尋請求:hello world

doc1:hello, today is very good

doc2:hi world, how are you

假設在index中有1萬條document,hello這個單詞在所有的document中,一共出現了1000次;world這個單詞在所有的document中,一共出現了100次

結果是doc2相關讀更高,這種對搜尋請求各佔一半的情況下, 會用這種方式計算相關度

搜尋請求:hello world

doc1:

doc2:

當hello world在整個index**現的次數是一樣多的時候,doc1更相關,因為title field更短

我們可以根據一下語法檢視_score是如何被計算出來的

get /test_index/test_type/_search?explain

}}-------------------------------------結果-------------------------------------

, "hits": ,

"_explanation": ,]},

,,,,

]}]}

]}]},

,,]}

]}]}

},,

"_explanation": ,]},

,,,,

]}]}

]}]},

,,]}

]}]}

},,

"_explanation": ,]},

,,,,

]}]}

]}]},

,,]}

]}]}

}]

}}

可以根據這樣子的寫法檢視乙個document是如何被匹配上的

get /test_index/test_type/2/_explain

}}

搜尋引擎(一) 初識

搜尋引擎是網際網路應用中技術含量最高的應用之一。使用者通過輸入查詢詞,搜尋引擎返回搜尋結果,應用形式看似簡單,但如何從百億量的網際網路資料資料中準確且高效的獲得使用者想要的搜尋資訊,也是不小的挑戰。因此,更全 更快 更準 便是搜尋引擎技術的最終目標。對於搜尋引擎來說,更快 更全 是其餘其他同類產品競...

搜尋引擎相關資源

搜尋引擎相關資源 rfc the requests for ments 文件 英文rfc搜尋,很強大的rfc搜尋功能 英文rfc庫 china pub的rfc中文翻譯計畫,裡面有不少rfc文件已經翻譯成中文 china pub提供的rfc文件索引,相信國內的朋友訪問速度會快點 相信這個是目前最大的m...

41 初識搜尋引擎 Query DSL搜尋語法

搜尋內容在中的就是query dsl搜尋,如 get search 1 語法 2 示例 get test index test type search 結果 hits 舉例說明 1 建立測試document資料 hits 2 搜尋需求 title必須包含elasticsearch,content可以...