jieba分詞關鍵字含英文和特殊字元的處理方法

2021-10-05 01:18:00 字數 1433 閱讀 1985

1.預設情況

# 預設情況

import jieba

str1 =

"查詢machine-1234的產品說明書"

for w in jieba.cut(str1)

:print

(w)# 執行結果

>>

>查詢

>>

>machine

>>

>

->>

>

1234

>>

>的

>>

>產品

>>

>說明書

2.利用自定義字典
通常情況下,我們可以載入預定義字典來包含詞庫里不存在的詞,以達到正確分詞的效果

# 利用使用者自定義字典

import jieba

str1 =

"查詢machine-1234的產品說明書"

jieba.load_userdict(

"./external_dict/machines.txt"

)for w in jieba.cut(str1)

:print

(w)# 執行結果

>>

>查詢

>>

>machine-

1234

>>

>的

>>

>產品

>>

>說明書

3.利用正規表示式

import re

import jieba

str1 =

"查詢machine-1234的產品說明書instruction:*:*:yyyy:2020"

# 動態新增片語

spec_words = re.findall(

'[-.*:a-za-z0-9]+'

, str1)

for word in spec_words:

jieba.add_word(word, tag=

'nz'

)# 修改jieba包init.py中正規表示式

jieba.re_han_default = re.

compile

('(.+)'

, re.u)

for w in jieba.cut(str1)

:print

(w)# 執行結果

>>

>查詢

>>

>machine-

1234

>>

>的

>>

>產品

>>

>說明書

>>

>instruction:*:

*:yyyy:

2020

關鍵字 php提取關鍵字中文分詞

每日17點準時技術乾貨分享 需求 做seo的keywords時,需要從標題或者正文裡提取關鍵字 2.封裝 loaddict pa setsource content pa startanalysis true tags pa getfinallykeywords num 獲取文章中的n個關鍵字 re...

階段二 jieba關鍵字提取

content 該課題針對tdi 甲苯二異氰酸酯 生產廢渣汙染問題,將tdi廢渣進行催化水解生成tda 甲苯二胺 單體,實現了資源再生。創新點如下 1 確定了在溫和反應條件下tda高收率的水解催化劑和相轉移催化劑 2 研發了高粘度 高沸點物料的連續化液固分離技術,實現了萬噸級工業化生產,並形成了工藝...

this關鍵字和super關鍵字

this關鍵字和super關鍵字都必須放在構造方法的第一行,所有兩個關鍵字不能同時存在,任選其一即可,只需保證子類的所有構造方法呼叫父類的構造方法即可 this關鍵字的應用 this關鍵字用於區分區域性變數和成員變數的同名問題 有this關鍵字的是成員變數,或者是誰呼叫我,訪問的就是誰 this關鍵...