es搜尋核心與實戰Day05

2021-10-07 11:04:03 字數 1635 閱讀 7307

1.詞頻tf

term frequency: 檢索詞在子篇文件**現的頻率

檢索詞出現的次數除以文件的總字數

度量一條查詢和結果文件相關性的簡單方法: 簡單將搜尋中每一乙個詞的tf進行相力

tf(區塊鏈) + tf(的) + tf(應用)

stop word「的」在文件**現了很多次,但是對貢獻相關度幾乎沒有用處,不應該考慮他們的tf

dfdf:檢索詞在所有文件**現的頻率

2.boosting 是控制相關度的一種手段

索引,欄位或查詢子條件

在elasticsearch中,有queryfilter兩種不同的context

3.bool查詢

乙個bool查詢,是乙個或者多個查詢子句的組合

​ 相關性並不只是全文字檢索的專利。也適用於yes | no的子句,匹配的子句越多,相關性評分越高。如果多條查詢子句被合併為一條復合查詢語句,比如bool查詢,則每個查詢子句計算得出的評分會被合併到總的相關性評分中。

4.function score query

可以在查詢結束後,對每乙個匹配的文件進行一系列的重新算分,根據新生成的分數進行排序。

提供了幾種預設的計算分值的函式

1.term suggester

delete articles

post articles/_bulk}}

}}}}

post /articles/_search},

"suggest":}

}}post /articles/_search}}

}

missing -如索引中已經存在,就不提供建議

2.phrase suggester

一些引數

post /articles/_search],

"highlight":}

}}}

3.completion suggester

步驟

索引資料

執行「suggest」 查詢,得到搜尋建議

//phrase suggester

post /articles/_search],

"highlight":}

}}}delete articles

put articles}}

}post articles/_bulk}}

}}}}

//completion使用

post articles/_search?pretty}}

}put comments]}

}}post comments/_doc}}

post comments/_doc}}

post comments/_search}}

}}

精準度和召回率

精準度completion > phrase > term

召回率term > phrase > completion

效能completion > phrase > term

es搜尋核心與實戰 Day02

倒排索引包含兩個部分 單詞詞典一般比較大,可以通過b 樹或雜湊拉鍊法實現,以滿足高效能的插入與查詢 get analyze 1.standard analyzer 2.analyzer 3.whitespace analyzer 4.stop analyzer 5.keyword analyzer ...

es搜尋核心與實戰Day07

hash演算法確保文件均勻分散到分片中 預設的 routing 值是文件id 可以自行制定routing數值,例如用相同國家的商品,都分配到指定的shard 設定index setting後,primary數,不能隨意修改的更本原因 更新乙個文件 a.倒排索引的不可變性 1.無需考慮併發寫檔案的問題...

Day05 類與物件

物件導向的特點 從執行者變為指揮者,包括封裝,繼承與多型。什麼是類?類是一組相關屬性和行為的集合。什麼是物件?是一類事物的具體體現。物件是類的例項,具備該事物的屬性和行為。類與物件的關係 類是對一類事物的描述。物件是一類事物的例項。類是物件的模板,物件是類的實體。類的定義 格式 public cla...