與自定義詞典 分詞 小公尺開源NLP分詞工具

2021-10-14 21:39:44 字數 1047 閱讀 7497

近日,小公尺nlp團隊開源了其分詞工具minlp-tokenizer,該分詞工具支援細粒度粗粒度分詞,且能夠新增使用者自定義詞典。

minlp-tokenizer是小公尺ai實驗室nlp團隊自研的中文分詞工具,基於深度學習序列標註模型實現,在公開測試集上取得了sota效果。其具備以下特點:

pip全自動安裝:

pip install minlp-tokenizer

適用環境:python 3.5~3.7,tensorflow>=1.15,<2

from minlptokenizer.tokenizer import minlptokenizertokenizer = minlptokenizer(granularity='fine')  # fine:細粒度,coarse:粗粒度,預設為細粒度print(tokenizer.cut('今天天氣怎麼樣?'))
from minlptokenizer.tokenizer import minlptokenizertokenizer = minlptokenizer(['word1', 'word2'], granularity='fine') #使用者自定義干預詞典傳入
from minlptokenizer.tokenizer import minlptokenizertokenizer = minlptokenizer('/path/to/your/lexicon/file', granularity='coarse')  # 建構函式的引數為使用者詞典路徑
minlp是小公尺ai實驗室nlp團隊開發的小公尺自然語言處理平台,目前已經具備詞法、句法、語義等數十個功能模組,在公司業務中得到了廣泛應用。第一階段我們開源了minlp的中文分詞功能,後續我們將陸續開源詞性標註、命名實體識別、句法分析等功能,和開發者一起打造功能強大、效果領先的nlp工具集。

jieba 分詞自定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...

IK中文分詞擴充套件自定義詞典!!!

1.基於分布式系統的自定義分詞要求與流程設計 見圖 e plan readingnote 分詞與索引 分詞 2012 4 20 2.分詞實現原理 詞典的載入過程 2.1.分詞詞典的載入過程涉及到3個類,分別是configuration類,directory類,以及dictsegment類。其中前兩個...

jieba結巴分詞加入自定義詞典

新增自定義詞典 動態調整詞典 參考jieba官方文件 jieba.cut 以及 jieba.cut for search 返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後得到的每乙個詞語 unicode 或者用 jieba.lcut 以及 jieba.lcut fo...