文字獲取和搜尋引擎中的反饋模型

coursera課程 text retrieval and search engine 第五周推薦。

對於vsm(vector space model)來說,想要提高查詢的準確度，需要把查詢向量做乙個調整，跳到某個位置以提高精度，rocchio即把向量移到所有向量的中心

||取模代表向量的個數，另外經過移動之後，會有很多原來是0的變成有資料，通常採用的措施是保留高權重的

它可以用在 relevance feedback和persudo feedback【relevance的beta要大於persudo】;在使用的時候注意不要過度依賴，還是要以原始的查詢為主，畢竟反饋只是乙個小的樣本

kl作為反饋運算來講，具體操作可以是：首先提供乙個預估要查詢的文件集，以及查詢的關鍵字，分別計算出文件和查詢的向量。計算出二者的距離【基本和vsm一致】，通過這樣的方式，會得到乙個反饋的集合。這裡的關鍵在於從反饋集合中提取出乙個查詢向量，通過如圖所示的方式新增到查詢向量中去【作為反饋】，從而提供更好的查詢結果

所有的反饋結果集合都會來自於反饋模型，但是通過詞頻分析來說，排在最前面的一般都是常用的字段集合【the 等】，而這些加入反饋是非常不恰當的。通過加入另外的乙個集合【背景文件】，混合兩個模型，並通過概率來選擇哪個集合的結果，這個時候，所有的反饋文件集合由混合模型來決定，那麼對於在背景文件中很少的詞頻，但是在反饋文件中很頻繁的，必定是**於反饋文件集合，背景文件集合本身通過給the等詞新增很低的頻率，那麼就可以篩選出反饋文集總過高的通用詞

topic words代表反饋模型，假設有乙個源頭來控制是取背景字段還是反饋模型的字段，其選擇概率是lamda。這樣做到可以控制到底是選擇背景文集作為反饋還是反饋模型。

文字獲取和搜尋引擎中的反饋模型

NoSql 和搜尋引擎

lycos搜尋引擎常用的搜尋引擎都有哪些特點？

搜尋引擎中的爬蟲和倒排索引技術

文字獲取和搜尋引擎中的反饋模型

NoSql 和 搜尋引擎

lycos搜尋引擎 常用的搜尋引擎都有哪些特點？

搜尋引擎中的爬蟲和倒排索引技術

相關推薦

NoSql 和搜尋引擎

lycos搜尋引擎常用的搜尋引擎都有哪些特點？