NLP 使用jieba分詞

2021-10-04 16:43:01 字數 1162 閱讀 2879

相比於機械法分詞法,jieba聯絡上下文的分詞效果更好。

同時使用hmm模型對片語的分類更加準確。

測試對如下文字的分詞效果

南門街前段時間經過整改勸阻擺攤佔道的情況改善了很多,但是情況好了幾天又慢慢的和以前一樣了,只要有人帶頭

後面慢慢又擺出來,很多商戶現在乾脆用鉤子把一些貨物掛門口屋簷下的電線上,上有政策下就有對策,城管來檢查就稍微好點,城管一走又擺出來又是老樣子,希望有關部門採取強硬點的措施,每次都不痛不癢的整治一下根本起不到什麼效果。現在二小門口那條路也成了馬路市場了,賣小菜.賣魚的.賣水果的成堆了。

import jieba

# 測試jieba分詞

str=

"南門街前段時間經過整改勸阻擺攤佔道的情況改善了很多,但是情況好了幾天又慢慢的和以前一樣了,只要有人帶頭 " \

"後面慢慢又擺出來,很多商戶現在乾脆用鉤子把一些貨物掛門口屋簷下的電線上,上有政策下就有對策,城管來檢查就稍微" \

"好點,城管一走又擺出來又是老樣子,希望有關部門採取強硬點的措施,每次都不痛不癢的整治一下根本起不到什麼效果。現在二小門口那條路也成了馬路市場了,賣小菜.賣魚的.賣水果的成堆了。 "

# 不使用全切割 使用隱馬模型

對於專有名詞jieba不可避免的出現了錯誤的分詞情況。我們可以手動將部分專有名詞使用utf-8編碼的txt匯入到jieba

# 新增片語

jieba.add_word(

'南門街'

)# 批量新增

jieba.load_userdict(

'word_jieba.txt'

)

再來看一下效果:

NLP基礎實驗 中文分詞 jieba

中文分詞有很多種,常見的比如有中科院計算所 nlpir 哈工大 ltp 清華大學 thulac 斯坦福分詞器 hanlp 分詞器 jieba 分詞 ikanalyzer 等。官方 三種分詞演算法 支援三種分詞模式 import jieba content 現如今,機器學習和深度學習帶動人工智慧飛速的...

NLP自然語言 jieba分詞庫

jieba 結巴 是乙個強大的分詞庫,完美支援中文分詞,本文對其基本用法做乙個簡要總結。1.安裝jieba pip install jieba 2.簡單用法 結巴分詞分為三種模式 精確模式 預設 全模式和搜尋引擎模式,下面對這三種模式分別舉例介紹 1 精確模式 import jieba s u 我想...

jieba分詞使用記錄

jieba分詞核心分詞由兩部分組成。對於在詞典裡的字詞建立字典樹 trie 在搜尋的時候必須從根節點搜尋到葉子節點才算乙個詞 對於不在字典裡的字詞使用hmm模型根據最大可能性進行分詞 每次執行jieba分詞時程式會先檢查是否存在jieba.cache這個檔案。如果存在直接使用這個檔案中的資訊,否則重...