機器學習 TF IDF演算法

cf：文件集的頻率，是指詞在文件集**現的次數

df：文件頻率，是指出現詞的文件數

idf：逆文件頻率，idf = log(n/(1+df))，n為所有文件的數目，為了相容df=0情況，將分母弄成1+df。

tf：詞在文件中的頻率

tf-idf：tf-idf= tf*idf

這樣，某個詞條的tf-idf的值為，即某乙個檔案中高頻出現的詞條，以及該詞條在整個語料庫檔案中低頻出現的現象，就可以產生高權重的tf-idf,因此，tf-idf傾向過濾掉常見的詞語，保留重要的詞語。即：字詞的重要性隨著它在檔案**現的次數成正比增加，但同時會隨著它在語料庫**現的頻率成反比下降。

優缺點

1. 優點是演算法的容易理解，便於實現。

2.缺點：idf的簡單結構並不能有效地反映單詞的重要程度和特徵詞的分布情況，使其無法很好的完成對權值的調整功能，所以在一定程度上該演算法的精度並不是很高。除此之外，演算法也沒喲體現位置資訊，對於出現在文章不同位置的詞語都是一視同仁的，而我們知道，在文章首尾的詞語勢必重要性要相對高點。據此，我們可以或許也可以將處於文章不同位置的詞語賦予不同的權重。

為了講解文字資料的向量化，假設我們有4個文字，所有文字一共有6個不同的詞，如下所示。

arr = ['第一天我參觀了美術館',

'第二天我參觀了博物館',

'第三天我參觀了動物園',]

arr = [' '.join(jieba.lcut(i)) for i in arr] # 分詞

print(arr)

# 返回結果：

# ['第一天我參觀了美術館', '第二天我參觀了博物館', '第三天我參觀了動物園']

vectorizer = countvectorizer()

x = vectorizer.fit_transform(arr)

word = vectorizer.get_feature_names()

df = pd.dataframe(x.toarray(), columns=word)

print(df)

# 返回結果：

# 動物園博物館參觀第一天第三天第二天美術館

# 0 0 1 1 0 0 1

# 0 1 1 0 0 1 0

# 1 0 1 0 1 0 0

transformer = tfidftransformer()

tfidf = transformer.fit_transform(x)

weight = tfidf.toarray()

for i in range(len(weight)): # 訪問每一句

print("第{}句：".format(i))

for j in range(len(word)): # 訪問每個詞

if weight[i][j] > 0.05: # 只顯示重要關鍵字

print(word[j],round(weight[i][j],2)) # 保留兩位小數

# 返回結果

# 第0句：美術館 0.65 參觀 0.39 第一天 0.65

# 第1句：博物館 0.65 參觀 0.39 第二天 0.65

# 第2句：動物園 0.65 參觀 0.39 第三天 0.65

經過對資料x的計算之後，返回了權重矩陣，句中的每個詞都只在該句**現了一次，因此其tf值相等，由於「參觀」在三句中都出現了，其idf較其它關鍵字更低。sklearn除了實現基本的tf-idf演算法外，還其行了歸一化、平滑等一系列優化操作。詳細操作可參見sklearn原始碼中的sklearn/feature_extraction/text.py具體實現。

在做特徵工程時，常遇到這樣的問題：從乙個短語或短句中提取關鍵字構造新特徵，然後將新特徵代入分類或者回歸模型，是否需要使用tf-idf方法？首先，tf是詞頻，即它需要在乙個文字**現多次才有意義，如果在短句中，每個詞最多隻出現一次，那麼計算tf不如直接判斷其是否存在。

機器學習 TF IDF演算法

機器學習 TF IDF是什麼

Spark機器學習 TF IDF例項講解

TF IDF及其演算法

機器學習 TF IDF演算法

機器學習 TF IDF是什麼

Spark機器學習 TF IDF例項講解

TF IDF及其演算法

相關推薦