NLTK的分詞器

2021-08-22 10:39:12 字數 345 閱讀 6970

最近在做nlp的任務,經常會用到分詞。有個問題:nltk的word_tokenizer和直接使用split(' ')感覺效果是類似的,而且還會出現can't這類的詞被word_tokenizer切分成ca n't。這樣看來,以後分詞就直接使用split(' ')更加高效和正確麼???

2021自己更新:

現有分詞工具:

1.nltk,確實有can't這類切分問題,不好。

2.pyenchant,可以很好的解決can『t這類切分問題,完全依賴空格和標點符號進行切分,在標點有問題的情況下,切分絕對有問題。

3.spacy,不太記得了,應該是最好的。可以在沒有符號的情況下進行分句,所以應該分詞沒有大bug

ik分詞器 分詞原理 分詞技術及開源分詞器

分詞是自然語言處理的第一步,這裡主要從序列標註的角度遞進介紹hmm如何實現分詞,然後介紹分詞工具的使用,在nlp中,分詞 詞性標註和命名實體識別都屬於標註任務,也就是對token進行分詞,對於分詞任務難點有以下幾個 新詞的發現 未登陸此 人名 地名 商標名 公司名稱 2.詞典與演算法優先順序 我們 ...

結巴分詞器

結巴分詞 coding utf 8 import sys import os import jieba sent 天善智慧型是乙個專注於商業智慧型bi 資料分析 資料探勘和大資料技術領域的技術社群 www.hellobi.com 內容從最初的商業智慧型 bi 領域也擴充到了資料分析 資料探勘和大資料...

lucene IK分詞器 不分詞

需求 名字 東方朔 ik 東方 朔 當我查詢索引東方朔的時候 並沒有出現我所需要的結果,是因為沒有東方朔這個詞 因此我需要不分詞。尋找不分詞的方法尋找了很久,首先是自定義擴充套件的詞,但是這個問題我遇到了版本不合適,聽說ik2012分詞器不支援4.0以上的版本,不過當我把lucene版本降到3.6的...