中文文字關鍵字分割演算法

2021-06-06 02:49:48 字數 583 閱讀 4620

這幾天為gimi talk研究中文的分詞,主要問題是要消除歧義的關鍵字,如何分割的問題。

1.查詢所有有效詞(起始位置和詞長):

長春(0,2),長春市(0,3),市長(2,2),長春(3,2),**(4,2),藥店(5,2)

2.找出所有有效詞可能的組合:

a.長春/市長/**/店     登入詞:3個     碎詞:1個

b.長春/市/長春/藥店     登入詞:3個     碎詞:1個

c.長春市/長春/藥店     登入詞:3個     碎詞:0個

d.長春市/長/**/店     登入詞:2個     碎詞:2個

3.最優結果:

1.首選條件,登入詞最多。

2.次選條件,碎詞最少。

3.其他條件,碎詞長度最小,詞頻等。可以自己加。

4.實際測試:

我使用的是搜狗實驗室的網際網路詞庫,大約15w詞彙,2字以上。

長春市的長**店:長春市/的/長春/藥店

研究生命的意義:研究/生命/的/意義

上海的自來水來自海上:上海/的/自來水/來自/海上

如果沒有如果那該怎麼辦:如果/沒有/如果/那該/怎麼辦

中文文字的關鍵字提取

import jieba.analyse sentence 人工智慧 artificial intelligence 英文縮寫為ai。它是研究 開發用於模擬 延伸和擴充套件人的智慧型的理論 方法 技術及應用系統的一門新的技術科學。人工智慧是電腦科學的乙個分支,它企圖了解智慧型的實質,並生產出一種新的...

關鍵字 php提取關鍵字中文分詞

每日17點準時技術乾貨分享 需求 做seo的keywords時,需要從標題或者正文裡提取關鍵字 2.封裝 loaddict pa setsource content pa startanalysis true tags pa getfinallykeywords num 獲取文章中的n個關鍵字 re...

為元素文字高亮關鍵字

已知乙個元素 123abc de 我們想高亮文字 a 也就是說,把元素內容變為 123abc de 要如何做?這還不簡單,把div的innerhtml做個replace,把 a替換成 a 不就成了?注意,字元實體 裡面也有個a,replace會破壞它的,如果用正則控制不替換 和 之間的字元似乎又比較...