與自定義詞典分詞小公尺開源NLP分詞工具

近日，小公尺nlp團隊開源了其分詞工具minlp-tokenizer，該分詞工具支援細粒度和粗粒度分詞，且能夠新增使用者自定義詞典。

minlp-tokenizer是小公尺ai實驗室nlp團隊自研的中文分詞工具，基於深度學習序列標註模型實現，在公開測試集上取得了sota效果。其具備以下特點：

pip全自動安裝：

pip install minlp-tokenizer

適用環境：python 3.5~3.7，tensorflow>=1.15,<2

from minlptokenizer.tokenizer import minlptokenizertokenizer = minlptokenizer(granularity='fine')  # fine：細粒度，coarse：粗粒度，預設為細粒度print(tokenizer.cut('今天天氣怎麼樣？'))

from minlptokenizer.tokenizer import minlptokenizertokenizer = minlptokenizer(['word1', 'word2'], granularity='fine') #使用者自定義干預詞典傳入

from minlptokenizer.tokenizer import minlptokenizertokenizer = minlptokenizer('/path/to/your/lexicon/file', granularity='coarse')  # 建構函式的引數為使用者詞典路徑

minlp是小公尺ai實驗室nlp團隊開發的小公尺自然語言處理平台，目前已經具備詞法、句法、語義等數十個功能模組，在公司業務中得到了廣泛應用。第一階段我們開源了minlp的中文分詞功能，後續我們將陸續開源詞性標註、命名實體識別、句法分析等功能，和開發者一起打造功能強大、效果領先的nlp工具集。

jieba 分詞自定義詞典問題

只對長詞起作用對如果定義的詞比jieba自己分的短，則沒有用下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢精確模式 seg list jieb...

IK中文分詞擴充套件自定義詞典！！！

1.基於分布式系統的自定義分詞要求與流程設計見圖 e plan readingnote 分詞與索引分詞 2012 4 20 2.分詞實現原理詞典的載入過程 2.1.分詞詞典的載入過程涉及到3個類，分別是configuration類，directory類，以及dictsegment類。其中前兩個...

jieba結巴分詞加入自定義詞典

新增自定義詞典動態調整詞典參考jieba官方文件 jieba.cut 以及 jieba.cut for search 返回的結構都是乙個可迭代的 generator，可以使用 for 迴圈來獲得分詞後得到的每乙個詞語 unicode 或者用 jieba.lcut 以及 jieba.lcut fo...

與自定義詞典 分詞 小公尺開源NLP分詞工具

jieba 分詞自定義詞典問題

IK中文分詞擴充套件自定義詞典！！！

jieba結巴分詞加入自定義詞典

相關推薦

與自定義詞典分詞小公尺開源NLP分詞工具