百面機器學習

2021-09-25 03:07:32 字數 1680 閱讀 2923

目錄

第一章 特徵工程

1.1特徵歸一化

1.2高維組合特徵的處理

特徵工程:對原始資料進行一系列工程處理,將其提煉為特徵。作為輸入給演算法和模型使用。本質上,特徵工程是乙個表示和展現資料的過程。特徵工程旨在去除原始資料中的雜誌。

結構化資料:類似於資料庫中的乙個表,每乙個行列都有清晰的定義,包含數值型與類別型兩種型別。

特徵歸一化:是為了消除資料特徵之間的量綱影響,使得不同的指標之間可以具有對比性

特徵歸一化針對的是數值型別的特徵。

第乙個是線性函式的歸一化。它對原始資料進行線性變換使得結果過對映到[0,1],實現對原始資料的等比縮放。

第二個是零均值的歸一化。它將會把原始資料對映到值為0、標準差為1的分布上。

類別型特徵:指在有限選項內取值的特徵,類別型特徵原始輸入通常是字串形式,除了決策樹等少數模型能直接處理字串的輸入。對於邏輯回歸,支援向量機模型來說,類別型特徵需要轉變成數值型特徵才可以有效。

對於類別型資料的處理,主要有三種方式:序號編碼通常用於處理類別之間具有大小關係的資料。比如成績高、中、低劃分為0 、1、2。獨熱編碼通常用於處理不具有大小關係的特徵。如血型a、ab、o、b。獨熱編碼將其變成四維稀疏向量。

此類編碼有兩方面要注意,第乙個是稀疏向量節省空間。第二個是配合特徵選擇來降低維度。

高緯度帶來的負面影響是在k近鄰演算法中點與點之間的舉例判斷難以得到有效的衡量。其次是邏輯回歸模型中,引數的數量會隨著維度的增高而變多,容易引起過擬合的問題。最後是只有部分維度是對分類與**是有幫助的。所以需要用到降維處理。

二進位制編碼主要是分為兩步,先用序號編碼對每乙個類別賦予乙個類別的id,然後將類別id對應的二進位製作為結果。本質上是利用二進位制對id進行雜湊對映,最終得到0/1特徵向量,且維數少於獨熱編碼節省了儲存空間。

組合特徵:為了提高複雜關係的擬合能力,在特徵工程經常把一階離散特徵兩兩組合,構成高階組合特徵。

文字表示模型

文字是種非結構化的資料

詞袋模型:將每一篇文章看成一袋子詞語,並且忽視每個詞出現的順序,具體來說,是將整段文字以詞為單位切分開,然後將每一篇文章表示成為乙個長向量, 向量中的每乙個維度代表乙個單詞。而該維對應的權重則反映了這個詞在原文章中的重要程度。

常用tfidf來計算權重

此外還有個n-gram模型,將連續出現的n個詞組成的片語作為乙個單獨的特徵放到向量表示中去。構成n-gram中。此外,乙個詞可能會有多種詞形變化,實際應用中還涉及到詞幹的抽取。

主題模型

用於從文字庫中發現有代表性的主題,(得到每個主題上面詞的分布特性)並且能夠計算每篇文章的主題分布。

詞嵌入與深度學習模型

詞嵌入是一類將詞向量化模型的統稱,核心思想是將每個詞都對映到低維空間(通常k = 50-300維度)上的乙個稠密向量,k維空間的每一維也可以看做乙個隱含的主題,只不過不像主題模型中的主題那樣直觀。

百面機器學習一

特徵歸一化常見的有兩種,一種是線性函式歸一化,一種是零均值歸一化。線性函式歸一化 min max scaling 對原始資料進行線性變換,將結果對映到 0,1 的範圍,歸一化公式如下 x no rm x xmi nxma x xm in x frac x xnorm xma x x min x xm...

《百面機器學習》模型評估

沒有測量,就沒有科學。門捷列夫 在模型評估過程中,分類問題 排序問題 回歸問題往往需要使用不同的指標進行評估。在諸多的評估指標中,大部分指標只能片面地反映模型的一部分效能。如果不能合理地運用評估指標,不僅不能發現模型本身的問題,而且會得出錯誤的結論。準確率 accuracy 精確率 precisio...

百面機器學習筆記 4

roc曲線 question 如何計算auc?answer 首先,auc是指roc曲線下的面積大小,該值能夠量化地反映基於roc曲線衡量出的模型效能。計算auc值只需要沿著roc橫軸做積分就可以了。由於roc曲線一般都處於y x這條直線的上方 如果不是的話,只要把模型 的 概率反轉成1 p就可以得到...