sklearn第四講資料集變換

scikit-learn提供了乙個資料變換庫，可以實現清洗、縮減、擴充套件或產生特徵表示。類似其它估計量，這些都由具有fit方法的類表示。fit方法從訓練集學習模型引數（例如均值和標準差），transform方法應用這個變換模型到未知資料上。而fit_transform方法可以更方便高效地同時建模和變換訓練資料。

pipeline能夠把多個估計量鏈成乙個。當預處理資料存在乙個固定的步驟順序時，例如，特徵選擇、歸一化、分類，它是有用的。pipeline服務於兩個目的：

只需在你的資料上呼叫一次fit,predict, 就可以擬合整個估計過程。

你可以在pipeline裡立即grid search所有估計量的引數。

除了最後乙個，在pipeline裡的所有估計量，都必須被變換（即，必須有乙個transform方法），最後的估計量可以是任何型別的（transformer, classifier等）。

使用乙個(key, value)對列表建立pipeline, 在這裡key是乙個字串，表示你想要的步驟名字，value是乙個估計量物件。

工具函式make_pipeline是pipeline的快速建立法，它取的估計量數是可變的，返回乙個pipeline, 自動填充名字。

乙個pipeline的估計量作為列表儲存在steps屬性裡。

作為乙個字典儲存在named_steps屬性裡。

使用__語法訪問估計量的引數。

featureunion組合幾個變換物件成為乙個新的變換。乙個featureunion取乙個變換物件列表。在擬合期間，每個物件被資料單獨擬合。出於變換資料的目的，這些變換是並行的，它們輸出的樣本向量按端到端的方式連成乙個更大的向量。featureunion和pipeline組合可以實現更複雜的模型。

使用(key, value)對形式的列表建立乙個featureunion, key是變換名（乙個字串），value是乙個估計量物件。

像pipeline一樣，特徵組合也有乙個快速建立函式make_union, 它不需要明確命名成分。同樣，使用set_params, 各個步驟也可以被替代，設定為none則可以忽略。

sklearn第四講資料集變換

視覺SLAM十四講第四講

第四講 Xpath語法

Python學習第四講

sklearn第四講 資料集變換

視覺SLAM十四講第四講

第四講 Xpath語法

Python學習第四講

相關推薦

sklearn第四講資料集變換