TB級Elasticsearch全文檢索優化研究

2021-09-01 09:18:03 字數 1015 閱讀 7375

今年工作的乙個重點是「新技術新模式」的匯入和研究。elasticsearch技術比較火,各專案和產品用的都也比較多。其中某團隊遇到乙個問題:「在tb級的資料量下進行全文檢索時,es集群檢索響應速度比較慢」。雖然由於各種原因沒有接觸到系統,沒有看到**,甚至都沒見到具體現象,但是任務分配下來了,就要有結果就要出方案。「沒吃過豬肉,也得先見見豬跑」,先在乙個30gb級別的es集群下做一下優化研究。

乙個分析器可以有字元過濾器、分詞器、分詞過濾器自由組合,形成新的自定義的分析器。

分析器有很多種,有es內建的和社群提供的。其中主流的分析器包括:standard 、ansj、ik、smartcn、icu、mmseg、pinyin,且均能支援中文分詞。

#檢視集群安裝的分析器外掛程式

get /_nodes/plugins

#結果:

..."plugins": [,,

,,,]

...

檢視比較火的ik分詞器效果:

get /medcl/_analyze

#結果:

, ,,,

,]}

分析器

分詞效果

standard

「武」、「漢」、「市」、「長」、「江」、「大」、「橋」

ik「武漢市」、「武漢」、「市長」、「長江大橋」、「長江」、「大橋」

smartcn

「武漢市」、「長江」、「大橋」

ansj

「武漢市」、「長江」、「大橋」

mmseg

「武漢」、「市」、「長江」、「大橋」

icu「武漢」、「市」、「長江」、「大"、"橋」

結論:smartcn和ansj是比較準確和智慧型的分析器

es例項引數優化

es查詢語句優化

docker筆記 ElasticSearch安裝

搜尋映象 docker search elasticsearch 拉取映象 docker pull elasticsearch 7.8.0 檢視映象 docker images 執行容器 docker run d name es p 9200 9200 elasticsearch 7.8.0 檢視執...

TB級NFS資料平滑遷移系列

公司原來提供的ccdbfs集群服務即將下線,需要在乙個月內遷移完畢,並且後續提供持續穩定 高可用nfs服務。預估20tb資料,假設拷貝速率100mb s。20 1024 1024 100 209715.2 s 209715.2 60 60 58 h至少需要兩三天。事實上,在兩個nfs集群間拷貝傳輸速...

curl命令操作ElasticSearch總結

埠9200和9300的關係 9200作為http協議埠,用於節點和外部通訊。9300作為tcp協議埠,用於節點與節點之間 節點與tcpclient之間的通訊。cat命令獲取集群資訊 cat系列提供了一系列查詢es集群狀態的介面。你可以通過執行 curl xget localhost 9200 cat...