python替換同義詞 jieba替換同義詞

2021-09-13 17:28:18 字數 1408 閱讀 4563

所以我們打算現將使用者的輸入做乙個預處理 , 將一些同義詞 手動 轉化為 知識圖譜的中標準輸入。

構建同義詞檔案tongyici_tihuan.txt,每乙個同義詞列為一行,每行第乙個為希望分隔後呈現的詞語,後幾個為第乙個詞的同義詞,用tab鍵分隔,比如:

年休假	年假	年休

北京 北平 首都

在這個例子裡「北平 首都」都會被替換為 「北京」

# encoding=utf-8

import jieba

deftihuan_tongyici

(string1)

:# tongyici_tihuan.txt是同義詞表,每行是一系列同義詞,用tab分割

# 1讀取同義詞表:並生成乙個字典。

combine_dict =

for line in

open

("tongyici_tihuan.txt"

,"r"):

seperate_word = line.strip(

).split(

"\t"

) num =

len(seperate_word)

for i in

range(1

, num)

: combine_dict[seperate_word[i]

]= seperate_word[0]

# 2提公升某些詞的詞頻,使其能夠被jieba識別出來

jieba.suggest_freq(

"年假"

, tune =

true

)# 3將語句切分

seg_list = jieba.cut(string1, cut_all =

false

) f =

"/".join(seg_list)

.encode(

"utf-8"

)# 不用utf-8編碼的話,就不能和tongyici檔案裡的詞對應上

# print f

# 4 final_sentence =

""for word in f.split(

"/")

:if word in combine_dict:

word = combine_dict[word]

final_sentence += word

else

: final_sentence += word

# print final_sentence

return final_sentence

string1 =

'年假到底放幾天?'

print tihuan_tongyici(string1)

python同義詞替換的實現(jieba分詞)

tihuanwords.txt文件格式 注意 同一行的詞用單個空格隔開,每行第乙個詞為同行詞的替換詞。年休假 年假 年休 究竟 到底 回家場景 我回來了 import jieba def replacesynonymwords string1 1讀取同義詞表,並生成乙個字典。程式設計客棧 combi...

常見同義詞

目錄originate from derive from stem from spring from giant n.故事中常為殘酷而愚蠢的 巨人 巨人 巨獸 巨型植物 大公司 強大的組織 adj.巨大的 特大的 偉大的 vast adj.遼闊的 巨大的 龐大的 大量的 tremendous adj...

同義詞(別名)

同義詞 別名 注意 如果檢視其他使用者的表,報錯表或檢視不存在 可能是許可權不足 需要授權 conn as sysdba grant select on hr.employees to scott conn scott tiger select count from hr.employees con...