NLP 理論實踐 Task3 特徵選擇

task3

tf-idf原理。

文字矩陣化，使用詞袋模型，以tf-idf特徵值為權重。（可以使用python中tfidftransformer庫）

互資訊的原理。

使用第二步生成的特徵矩陣，利用互資訊進行特徵篩選。

tf-idf（term frequency–inverse document frequency）是一種用於資訊檢索與文字挖掘的常用加權技術。tf-idf是一種統計方法，用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加，但同時會隨著它在語料庫**現的頻率成反比下降。tf-idf加權的各種形式常被搜尋引擎應用，作為檔案與使用者查詢之間相關程度的度量或評級。除了tf-idf以外，網際網路上的搜尋引擎還會使用基於鏈結分析的評級方法，以確定檔案在搜尋結果**現的順序。

在乙份給定的檔案裡，詞頻（term frequency，tf）指的是某乙個給定的詞語在該檔案**現的次數。這個數字通常會被正規化，以防止它偏向長的檔案。（同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻，而不管該詞語重要與否。）對於在某一特定檔案裡的詞語ti 來說，它的重要性可表示為：

t fi

,j=n

i,j∑

knk,

j\mathrm} = \frac}}

tfi,j

=∑k

nk,j

ni,

j以上式子中 ni,

jn_

ni,j

是該詞在檔案dj中的出現次數，而分母則是在檔案dj中所有字詞的出現次數之和。

逆向檔案頻率（inverse document frequency，idf）是乙個詞語普遍重要性的度量。某一特定詞語的idf，可以由總檔案數目除以包含該詞語之檔案的數目，再將得到的商取對數得到：

i df

log⁡∣d

∣∣

∣\mathrm} = \log \frac \in d_\}|}

idfi=

log∣∣∣

d∣其中

∣ d∣

|d|∣d

∣：語料庫中的檔案總數

∣

∣|\ \in d_\}|

∣∣：包含詞語ti的檔案數目（即ni,

j≠

0n_ \neq 0

ni,j̸

=0的檔案數目）如果該詞語不在語料庫中，就會導致被除數為零，因此一般情況下使用1+∣

∣1 + |\ \in d_\}|

1+∣∣然後tfi

dfi,

j=tf

i,j×

idfi

\mathrmidf_} = \mathrm} \times \mathrm}

tfidfi

,j=

tfi,

j×i

dfi

某一特定檔案內的高詞語頻率，以及該詞語在整個檔案集合中的低檔案頻率，可以產生出高權重的tf-idf。因此，tf-idf傾向於過濾掉常見的詞語，保留重要的詞語。

NLP 理論實踐 Task3 特徵選擇

Task 3 特徵工程

Task 3 特徵工程

NLP 理論實踐 Task2

NLP 理論實踐 Task3 特徵選擇

Task 3 特徵工程

Task 3 特徵工程

NLP 理論實踐 Task2

相關推薦