python 關鍵字提取

2021-07-23 14:06:59 字數 1311 閱讀 6382

jieba 關鍵字提取

import jieba.analyse

tags = jieba.analyse.extract_tags(str, topk=3)

#str是提取關鍵字的內容,topk是提取關鍵字數

print ",".join(tags)

tf-idf關鍵字提取

是用於資訊檢索和文字挖掘的加權技術。是評估乙個詞對乙個檔案集或乙份檔案的重要程度。tf*idf

tf(詞頻)tf(w,d) = count(w, d) / size(d)     count(w, d) :w在文件d中出現的次數   size(d):文件d中的總次數

idf(逆向檔案頻率)idf = log(n / docs(w, d))

1.安裝scikit-learn包

2.安裝jieba分詞包

3.實現

def find_keywords(string_list, num):

"""查詢關鍵字,num代表查詢關鍵字個數"""

fenci_result =

for str in string_list:

vectorizer = countvectorizer()

transformer = tfidftransformer()

tfidf = transformer.fit_transform(vectorizer.fit_transform(fenci_result))

word = vectorizer.get_feature_names()

weight = tfidf.toarray()

keywords_dict = {}

for i in range(len(word)):

keywords_dict[word[i]] = 0.0

for j in range(len(weight)):

keywords_dict[word[i]] += weight[j][i]

keyword_rank_dict = sorted(keywords_dict.iteritems(), key=lambda d: d[1], reverse=true)

i = 0

result =

for item in keyword_rank_dict:

i += 1

if i > num:

break

print item[0].encode("utf8"),

print item[1]

return result

關鍵字 EXCEL關鍵字提取

如何根據關鍵字列表將單元格中的關鍵字提取出來,本文提供三種方法,看哪一種適合你!開啟excel 表,內容如下 a列為需要提取關鍵字的內容 f列為關鍵字列表 bcd為三種方法演示 方法一 公式 if sumproduct countif a2,f 2 f 13 lookup 0 frequency 0...

關鍵字 php提取關鍵字中文分詞

每日17點準時技術乾貨分享 需求 做seo的keywords時,需要從標題或者正文裡提取關鍵字 2.封裝 loaddict pa setsource content pa startanalysis true tags pa getfinallykeywords num 獲取文章中的n個關鍵字 re...

python資料分析 關鍵字提取

tf idf term frequencey inverse document frequency 指詞頻 逆文件頻率,它屬於數值統計的範疇。使用tf idf,我們能夠學習乙個詞對於資料集中的乙個文件的重要性。tf idf有兩部分,詞頻和逆文件頻率。首先介紹詞頻,這個詞很直觀,詞頻表示每個詞在文件或...