機器學習演算法基礎day2

2021-10-07 23:44:05 字數 3240 閱讀 8594

sklearn.feature_selection.variancethreshold

variancethreshold(threshold = 0.0)

刪除所有低方差特徵

variance.fit_transform(x,y)

x:numpy array格式的資料[n_samples,n_features]

返回值:訓練集差異低於threshold的特徵將被刪除。

預設值是保留所有非零方差特徵,即刪除所有樣本

中具有相同值的特徵。

流程:1初始化variancethreshold,指定閥值方差

2呼叫fit_transform

sklearn. decomposition

本質:pca是一種分析、簡化資料集的技術

目的:是資料維數壓縮,盡可能降低原資料的維數(複雜度),損失少量資訊。

作用:可以削減回歸分析或者聚類分析中特徵的數量

pca語法

pca(n_components=none)

將資料分解為較低維數空間

pca.fit_transform(x)

x:numpy array格式的資料[n_samples,n_features]

返回值:轉換後指定維度的array

(1)演算法是核心,資料和計算是基礎

(2)找準定位

大部分複雜模型的演算法設計都是演算法工程師在做,而我們

分析很多的資料

分析具體的業務

應用常見的演算法

特徵工程、調引數、優化

我們應該怎麼做

學會分析問題,使用機器學習演算法的目的,想要演算法完成何種任務

掌握演算法基本思想,學會對問題用相應的演算法解決

學會利用庫或者框架解決問題

定義:通過一種對映關係將輸入值到輸出值

分類 k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網路

回歸 線性回歸、嶺回歸

標註 隱馬爾可夫模型

監督學習(英語:supervised learning),可以由輸入資料中學

到或建立乙個模型,並依此模式推測新的結果。輸入資料是由

輸入特徵值和目標值所組成。函式的輸出可以是乙個連續的值

(稱為回歸),或是輸出是有限個離散值(稱作分類)。

分類問題

概念:分類是監督學習的乙個核心問題,在監督學習中,當輸出變數取有限個離散值時,**問題變成為分類問題。最基礎的便是二分類問題,即判斷是非,從兩個類別中選擇乙個作為**結果;

回歸問題

概念:回歸是監督學習的另乙個重要問題。回歸用於**輸入變數和輸出變數之間的關係,輸出是連續型的值。

聚類 k-means

無監督學習(英語:supervised learning),可以由輸入資料中

學到或建立乙個模型,並依此模式推測新的結果。輸入資料是

由輸入特徵值所組成。

機器學習一般的資料集會劃分為兩個部分:

訓練資料:用於訓練,構建模型

測試資料:在模型檢驗時使用,用於評估模型是否有效

sklearn.model_selection.train_test_split

sklearn.datasets

載入獲取流行資料集

datasets.load_*()

獲取小規模資料集,資料報含在datasets裡

load和fetch返回的資料型別datasets.base.bunch(字典格式)

data:特徵資料陣列,是 [n_samples * n_features] 的二維

numpy.ndarray 陣列

target:標籤陣列,是 n_samples 的一維 numpy.ndarray 陣列

descr:資料描述

feature_names:特徵名,新聞資料,手寫數字、回歸資料集沒有

target_names:標籤名,回歸資料集沒有

sklearn.datasets.load_iris()

載入並返回鳶尾花資料集

sklearn.datasets.load_digits()

載入並返回數字資料集

sklearn.model_selection.train_test_split(*arrays, **options)

x 資料集的特徵值

y 資料集的標籤值

test_size 測試集的大小,一般為float

random_state 隨機數種子,不同的種子會造成不同的隨機

取樣結果。相同的種子取樣結果相同。

return 訓練集特徵值,測試集特徵值,訓練標籤,測試標籤

(預設隨機取)

用於分類的大資料集

sklearn.datasets.fetch_20newsgroups(data_home=none,subset=『train』)

subset: 『train』或者』test』,『all』,可選,選擇要載入的資料集.

訓練集的「訓練」,測試集的「測試」,兩者的「全部」

datasets.clear_data_home(data_home=none)

清除目錄下的資料

sklearn.datasets.load_boston()

載入並返回波士頓房價資料集

sklearn.datasets.load_diabetes()

載入和返回糖尿病資料集

在sklearn中,估計器(estimator)是乙個重要的角色,分類器和回歸器都屬於estimator,是一類實現了演算法的api

1、用於分類的估計器:

sklearn.neighbors k-近鄰演算法

sklearn.*****_bayes 貝葉斯

sklearn.linear_model.logisticregression 邏輯回歸

2、用於回歸的估計器:

sklearn.linear_model.linearregression 線性回歸

sklearn.linear_model.ridge 嶺回歸

機器學習基礎DAY2

1.定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 2.數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 1 歸一化 特點 通過對原始資料進行變換把資料對映到 預設為 0,1 之間 注 作用於每一列,max為一列的最大值...

機器學習 day2

歸一化 將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到 預設為 0,1 之間 問題 如果資料中異常點過多,會有什麼影響?最大值最小值會受影響。方差考量資料的穩定性。標準化 將所有資料進行變換到平均值為0,標準差為1之間。standardsc...

機器學習Day2

英文原鏈結源鏈結 假設 x和y是線性相關的 則需要找到乙個關於x的線性函式來盡可能準確的 y。y a0 a1x1 怎樣找到最合適的回歸線?通過最小化 值和觀測值的均方差 導入庫 匯入資料集 檢查缺失資料 分離訓練集和測試集 特徵縮放 從sklearn.linear model中匯入linearreg...