特徵工程 資料處理(2)非結構型資料

2021-09-18 06:55:42 字數 923 閱讀 8082

詞袋模型

每篇文章看成一袋子詞,並忽略每個詞出現的順序。具體地說,就是將整段文字以詞為單位切分開, 然後每篇文章可以表示成乙個長向量,向量中的每一維代表乙個單詞,而該維對應的權重則反映了這個詞在原文章中的重要程度。所以文字的單詞就是文字的特徵,這個特徵的重要性常用tf-idf來計算,權重公式為 tf−

idf(

t,d)

=tf(

t,d)

∗idf

(t

)tf-idf(t,d) = tf(t,d)*idf(t)

tf−idf

(t,d

)=tf

(t,d

)∗id

f(t)

i df

(t)=

logn

n(t)

idf(t) = log \frac

idf(t)

=log

n(t)

n​,其中n

nn為文章總數,n(t

)n(t)

n(t)

為包含單詞的文章總數,實際使用時,還會做平滑化處理,變成idf

(t)=

logn

+1n(

t)+1

+1

idf(t) = log \frac+1

idf(t)

=log

n(t)

+1n+

1​+1

直觀的解釋是,如果乙個單詞在非常多的文章裡面都出現,那麼它可能是乙個比 較通用的詞彙,對於區分某篇文章特殊語義的貢獻較小,因此對權重做一定懲 罰。

當詞表的特徵維度特別大時,還會做雜湊化處理進行降維處理。

主題模型

主題模型用於從文字庫中發現有代表性的主題(得到每個主題上面詞的分布 特性),並且能夠計算出每篇文章的主題分布。

word2vec 模型

樹形結構資料處理

前端使用 構造樹型結構資料 param data 資料來源 param depid 兒子節點id欄位 預設 depid param parentid 父節點id欄位 預設 parentid param children 孩子節點資料儲存字段 預設 children param rootid 根id ...

資料結構 海量資料處理

本篇部落格我們通過幾個經典的問題來看一下計算機中處理海量資料的常用方法。問題 給定乙個超過100g大小的日誌檔案,檔案中儲存著ip位址,設計演算法找出出現次數最多的ip位址?如何找到出現次數topk的ip?如何直接用linux命令實現?上述過程的示意圖如下 問題一 給40億個不重複的無符號整數,沒排...

特徵工程與資料預處理

通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集。資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。從這個概念可以看出,特徵工程其實是乙個如何展示和表現資料的問題,在實際工作中需要把資料以一種 良好 的方式展示出來,使得能夠使用各種各樣的機器學習模型來得到更好的效果。...