NLP 理論實踐 Task3 特徵選擇

2021-09-24 19:32:37 字數 1557 閱讀 5915

task3

tf-idf原理。

文字矩陣化,使用詞袋模型,以tf-idf特徵值為權重。(可以使用python中tfidftransformer庫)

互資訊的原理。

使用第二步生成的特徵矩陣,利用互資訊進行特徵篩選。

tf-idf(term frequency–inverse document frequency)是一種用於資訊檢索與文字挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案**現的次數成正比增加,但同時會隨著它在語料庫**現的頻率成反比下降。tf-idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。除了tf-idf以外,網際網路上的搜尋引擎還會使用基於鏈結分析的評級方法,以確定檔案在搜尋結果**現的順序。

在乙份給定的檔案裡,詞頻(term frequency,tf)指的是某乙個給定的詞語在該檔案**現的次數。這個數字通常會被正規化,以防止它偏向長的檔案。(同乙個詞語在長檔案裡可能會比短檔案有更高的詞頻,而不管該詞語重要與否。)對於在某一特定檔案裡的詞語ti 來說,它的重要性可表示為:

t fi

,j=n

i,j∑

knk,

j\mathrm} = \frac}}

tfi,j​

=∑k​

nk,j

​ni,

j​​以上式子中 ni,

jn_

ni,j

​ 是該詞在檔案dj中的出現次數,而分母則是在檔案dj中所有字詞的出現次數之和。

逆向檔案頻率(inverse document frequency,idf)是乙個詞語普遍重要性的度量。某一特定詞語的idf,可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取對數得到:

i df

i=

log⁡∣d

∣∣

∣\mathrm} = \log \frac \in d_\}|}

idfi​=

log∣∣∣

d∣​其中

∣ d∣

|d|∣d

∣:語料庫中的檔案總數

∣|\ \in d_\}|

∣∣:包含詞語ti的檔案數目(即ni,

j≠

0n_ \neq 0

ni,j​̸

​=0的檔案數目)如果該詞語不在語料庫中,就會導致被除數為零,因此一般情況下使用1+∣

∣1 + |\ \in d_\}|

1+∣∣然後tfi

dfi,

j=tf

i,j×

idfi

\mathrmidf_} = \mathrm} \times \mathrm}

tfidfi

,j​=

tfi,

j​×i

dfi​

某一特定檔案內的高詞語頻率,以及該詞語在整個檔案集合中的低檔案頻率,可以產生出高權重的tf-idf。因此,tf-idf傾向於過濾掉常見的詞語,保留重要的詞語。

Task 3 特徵工程

1 通過箱線圖 或3 sigma 分析刪除異常值 2 box cox轉換 處理有偏分布 3 長尾截斷 1 標準化 換為正態分佈 2 歸一化 3 針對冪律分布,可採用公式 1 x 1 median 1 等頻分桶 2 等距分桶 3 best ks 分桶 類似利用基尼指數進行二分類 4 卡方分桶 1 不處...

Task 3 特徵工程

1.異常處理 2.特徵歸一化 標準化 3.資料分桶 4.缺失值處理 5.特徵構造 1.異常處理 1 通過箱線圖 或3 sigma 分析刪除異常值 2 box cox轉換 處理有偏分布 3 長尾截斷 1 標準化 換為正態分佈 2 歸一化 3 針對冪律分布,可採用公式 1 x 1 median 1 等頻...

NLP 理論實踐 Task2

正向最大匹配法演算法流程 從前往後取詞,每次減乙個字,直至詞典命中或剩下1個單字。假設詞典中最長的單詞為 5 個,那麼最大匹配的起始子串字數也為 5 個 1 從左往右讀入子串,掃瞄字典,測試讀入的子串是否在字典中 2 如果存在,則從輸入中刪除掉該子串,重新按照規則取子串,重複 1 3 如果不存在於字...