機器學習演算法基礎day2

sklearn.feature_selection.variancethreshold

variancethreshold(threshold = 0.0)

刪除所有低方差特徵

variance.fit_transform(x,y)

x:numpy array格式的資料[n_samples,n_features]

返回值：訓練集差異低於threshold的特徵將被刪除。

預設值是保留所有非零方差特徵，即刪除所有樣本

中具有相同值的特徵。

流程：1初始化variancethreshold,指定閥值方差

2呼叫fit_transform

sklearn. decomposition

本質：pca是一種分析、簡化資料集的技術

目的：是資料維數壓縮，盡可能降低原資料的維數（複雜度），損失少量資訊。

作用：可以削減回歸分析或者聚類分析中特徵的數量

pca語法

pca(n_components=none)

將資料分解為較低維數空間

pca.fit_transform(x)

x:numpy array格式的資料[n_samples,n_features]

返回值：轉換後指定維度的array

（1）演算法是核心，資料和計算是基礎

（2）找準定位

大部分複雜模型的演算法設計都是演算法工程師在做，而我們

分析很多的資料

分析具體的業務

應用常見的演算法

特徵工程、調引數、優化

我們應該怎麼做

學會分析問題，使用機器學習演算法的目的，想要演算法完成何種任務

掌握演算法基本思想，學會對問題用相應的演算法解決

學會利用庫或者框架解決問題

定義：通過一種對映關係將輸入值到輸出值

分類 k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網路

回歸線性回歸、嶺回歸

標註隱馬爾可夫模型

監督學習（英語：supervised learning），可以由輸入資料中學

到或建立乙個模型，並依此模式推測新的結果。輸入資料是由

輸入特徵值和目標值所組成。函式的輸出可以是乙個連續的值

（稱為回歸），或是輸出是有限個離散值（稱作分類）。

分類問題

概念：分類是監督學習的乙個核心問題，在監督學習中，當輸出變數取有限個離散值時，**問題變成為分類問題。最基礎的便是二分類問題，即判斷是非，從兩個類別中選擇乙個作為**結果；

回歸問題

概念：回歸是監督學習的另乙個重要問題。回歸用於**輸入變數和輸出變數之間的關係，輸出是連續型的值。

聚類 k-means

無監督學習（英語：supervised learning），可以由輸入資料中

學到或建立乙個模型，並依此模式推測新的結果。輸入資料是

由輸入特徵值所組成。

機器學習一般的資料集會劃分為兩個部分：

訓練資料：用於訓練，構建模型

測試資料：在模型檢驗時使用，用於評估模型是否有效

sklearn.model_selection.train_test_split

sklearn.datasets

載入獲取流行資料集

datasets.load_*()

獲取小規模資料集，資料報含在datasets裡

load和fetch返回的資料型別datasets.base.bunch(字典格式)

data：特徵資料陣列，是 [n_samples * n_features] 的二維

numpy.ndarray 陣列

target：標籤陣列，是 n_samples 的一維 numpy.ndarray 陣列

descr：資料描述

feature_names：特徵名,新聞資料，手寫數字、回歸資料集沒有

target_names：標籤名,回歸資料集沒有

sklearn.datasets.load_iris()

載入並返回鳶尾花資料集

sklearn.datasets.load_digits()

載入並返回數字資料集

sklearn.model_selection.train_test_split(*arrays, **options)

x 資料集的特徵值

y 資料集的標籤值

test_size 測試集的大小，一般為float

random_state 隨機數種子,不同的種子會造成不同的隨機

取樣結果。相同的種子取樣結果相同。

return 訓練集特徵值，測試集特徵值，訓練標籤，測試標籤

(預設隨機取)

用於分類的大資料集

sklearn.datasets.fetch_20newsgroups(data_home=none,subset=『train』)

subset: 『train』或者』test』,『all』，可選，選擇要載入的資料集.

訓練集的「訓練」，測試集的「測試」，兩者的「全部」

datasets.clear_data_home(data_home=none)

清除目錄下的資料

sklearn.datasets.load_boston()

載入並返回波士頓房價資料集

sklearn.datasets.load_diabetes()

載入和返回糖尿病資料集

在sklearn中，估計器(estimator)是乙個重要的角色，分類器和回歸器都屬於estimator，是一類實現了演算法的api

1、用於分類的估計器：

sklearn.neighbors k-近鄰演算法

sklearn.*****_bayes 貝葉斯

sklearn.linear_model.logisticregression 邏輯回歸

2、用於回歸的估計器：

sklearn.linear_model.linearregression 線性回歸

sklearn.linear_model.ridge 嶺回歸

機器學習基礎DAY2

1.定義通過特定的統計方法數學方法將資料轉換成演算法要求的資料 2.數值型資料標準縮放 1 歸一化 2 標準化 3 缺失值類別型資料 one hot編碼時間型別時間的切分 1 歸一化特點通過對原始資料進行變換把資料對映到預設為 0,1 之間注作用於每一列，max為一列的最大值...

機器學習 day2

歸一化將所有資料轉化到同一標準下，使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到預設為 0,1 之間問題如果資料中異常點過多，會有什麼影響？最大值最小值會受影響。方差考量資料的穩定性。標準化將所有資料進行變換到平均值為0，標準差為1之間。standardsc...

機器學習Day2

英文原鏈結源鏈結假設 x和y是線性相關的則需要找到乙個關於x的線性函式來盡可能準確的 y。y a0 a1x1 怎樣找到最合適的回歸線？通過最小化值和觀測值的均方差導入庫匯入資料集檢查缺失資料分離訓練集和測試集特徵縮放從sklearn.linear model中匯入linearreg...

機器學習演算法基礎day2

機器學習基礎DAY2

機器學習 day2

機器學習Day2

相關推薦