文字特徵提取

注：翻譯自 scikit-learn 的 user guide 中關於文字特徵提取部分。

文字分析是機器學習的一大應用領域，但是長度不一的字串行是無法直接作為演算法的輸入。為了解決這個問題，scikit-learn 提供了幾個常用的文字特徵提取的方法：

在這個框架下，特徵和樣本定義為：

如此，乙個預料庫可以由乙個矩陣表示，它的行代表了一篇文件，它的列則表示乙個單詞在這個文件中出現的頻率。

我們稱這種將文字轉換為數值特徵向量的處理為向量化，這個策略（分詞 tokenization、計數 counting 和歸一化 normalization）稱為詞袋模型。詞袋模型忽視了詞與詞之間的位置資訊

大部分文件只使用了語料庫中非常小的一部分單詞，導致的結果就是矩陣中絕大部分（大於99%）的特徵數值都是零。為了可以儲存這個大型矩陣同時加速代數運算，我們必須採用稀疏表示，比如採用 scipy.sparse 包

countvectorizer 在乙個類內實現了分詞和計數

from sklearn.feature_extraction.text import countvectorizer

countvectorizer 有很多引數，但是預設引數是很合理的

vectorizer = countvectorizer()

下面我們在乙個小語料上，嘗試下 countvectorizer

corpus = [
'this is the first document.',
'this is the second second document.',
'and the third one.',
'is this the first document?',
]x = vectorizer.fit_transform(corpus)

文字特徵提取

文字特徵特徵提取（一）

特徵提取中文文字特徵抽取

字典特徵提取和文字特徵抽取

文字特徵提取

文字特徵 特徵提取（一）

特徵提取 中文文字特徵抽取

字典特徵提取和文字特徵抽取

相關推薦

文字特徵特徵提取（一）

特徵提取中文文字特徵抽取