Python資料科學手冊(5) 機器學習

2021-09-10 03:12:56 字數 809 閱讀 2547

python資料科學手冊最後一章講的是機器學習,這是乙個很大的課題,每一種演算法都可以鑽研,遠不是一篇文章能講清楚的,這裡主要總結一下書中關於特徵工程的課題。

俗話說,巧婦難為無公尺之炊。在機器學習中,資料和特徵便是「公尺」,模型和演算法則是「巧婦」。對於乙個機器學習問題,資料和特徵往往決定了結果的上限。特徵工程是對原始資料進行一系列工程處理,將其提煉為特徵,作為輸入和演算法和模型使用。

分類特徵

一種常見的非數值資料型別是分類資料,例如性別(男女),血型等。有多種方式:序號編碼(ordinal encoding),獨熱編碼(one-hot encoding),二進位制編碼(binary encoding).

1.1 序號編碼

序號編碼通常用於處理類別間具有大小關係的資料。例如成績,可以分為低中高三擋,並且存在「高》中》低」的排序關係。序號編碼會按照大小關係對類別特徵賦予乙個數值id,例如高中低依次為321,轉換後依然保留了大小關係。

1.2 獨熱編碼

通常用來處理類別間不具有大小關係的特徵,例如血型,一共四個取值(a,b,ab,o),獨熱編碼會把血型變成乙個四維稀疏向量,a型血表示為(1,0,0,0),b型表示為(0,1,0,0),ab型血表示為(0,0,1,0),o血型表示為(0,0,0,1).

1.3 二進位制編碼

二進位制編碼主要分為兩步,先用序號編碼給每個類別賦予乙個類別id,然後將類別id對應的二進位制編碼作為結果。二進位制編碼本質上是利用了二進位制進行雜湊對映,最終得到0/1特徵向量,且維數少於獨熱編碼,節省了儲存空間。

python資料科學手冊

python資料科學手冊 這並不是一本介紹 python 和程式設計基礎知識的書。它假設讀者已經熟悉 python 的基本語法,包括定義函式 分配變數 呼叫物件方法 實現程 序控制流等基本能力。這本書將幫助 python 使用者學習如何通過 python 的資料科學棧 包括 ipython nump...

Python資料科學手冊 Pandas 目錄

安裝時使用了 anaconda,那麼 pandas 就已經安裝好了。import pandas pandas.version import pandas as pd 通過按下 tab 鍵顯示 pandas 命名空間的所有內容 pd.顯示 pandas 的內建文件 pd?詳細文件1.序列轉列表 r.v...

Python資料科學手冊(1) IPython

本文主要是看完python資料科學手冊第一章的筆記 ipython是一種互動式的python開發環境,在資料探索階段非常有用,下面是對它的用法特性的簡單介紹。1,ipython的幫助和文件 a 用符號?獲取文件,類似於python的內建函式help help len 等價於 len?b 用?獲取源 ...