機器學習 一

2021-10-23 22:57:34 字數 2948 閱讀 3046

機器學習是從歷史資料中自動分析(學習),獲得模型(規律),並利用模型未知資料進行****(結果)**的過程。

學習–>規律–>**

資料集就是所謂的歷史資料

資料集一般由特徵值和目標值構成,資料集可以沒有目標值。

目標值:類別(離散型資料) ==》分類演算法 ==》(天氣陰雨晴等,人臉識別)

目標值:連續型的資料(具體的資料) ==》回歸演算法 ==》(天氣溫度 具體的溫度數值)

目標值:無目標值 ==》聚類演算法

1 獲取資料

2 資料處理:處理缺失值,錯亂資料

3 特徵工程:訓練資料和測試資料。將資料處理成能被演算法直接使用的資料。

4 機器學習演算法訓練:得到模型

5 模型評估:如果效果不好,需要返回到2,3,4,進行處理,迴圈處理直到效果滿意。

###2.1.1 可用資料集

學習階段可用資料集:

1 sklearn

2 kaggle

3 uci

1 sklearn資料集api介紹:

sklearn.datasets

載入獲取流行資料集方法:

​ datasets.load_*():獲取小規模資料集,資料報含在datasets裡面

sklearn小資料

​ sklearn.datasets.load_iris():載入並返回鳶尾花資料集

​ sklearn.datasets.load_boston():載入並且返回波士頓房價資料集

sklearn大資料集

​ sklearn.datasets.fetch_20newsgroups(data_home=none,subset=「train」)

​ subset:「train"或者"test」, 「all」, 可選,選擇要載入的資料集。訓練集的"訓練", 測試集的"測試", 兩者的全部

以鳶尾花資料集為例,sklearn資料集的返回值介紹

load和fetch返回的資料型別 **datasets.base.bunch **字典格式(繼承自字典)

​ data:特徵值陣列,是[n_samples*n_features]的二維 numpy.ndarray陣列

​ target: 目標值,標籤陣列,是n_samples的一維 numpy.ndarray 陣列

​ descr:陣列描述

​ feature_names: 特徵名,新聞資料,手寫數字,回歸資料集

​ target_names: 目標值-標籤名

datasets.base.bunch(字典格式(繼承自字典)

格式:​ dict[「key」] = values (繼承自字典的索引)

特有格式:

​ bunch.key = values (.模式)

機器學習一般的資料集會分為兩個部分:

​ 訓練資料:用於訓練,構建模型

​ 測試資料:在模型檢驗時使用,用於評估模型是否有效

​ 劃分比例:

​ 訓練集:70% 80% 75%

​ 測試集:30% 20% 30%

資料集劃分api

​ sklearn.model_selection.train_test_split(arrays,*options)

​ 傳參:

​ x:資料集的特徵值

​ y:資料集的標籤值(目標值)

​ test_size:測試集的大小,一般為float(0.2)

​ random_state:隨機數種子,不同的種子會造成不同的隨機取樣結果,相同的種子取樣結果相同

​ return:訓練集特徵值,測試集特徵值,訓練集目標值,測試集目標值

​ return::x_train,x_test,y_train,y_test

**:

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

defdatasets_demo()

:"""

sklearn 資料集使用

:return:

"""# 獲取資料集

iris = load_iris(

)print

("鳶尾花資料集:\n"

, iris)

print

("檢視資料集描述:\n"

, iris[

"descr"])

print

("檢視特徵值的名字:\n"

, iris.feature_names)

print

("檢視特徵值:\n"

, iris.data, iris.data.shape)

print

("檢視目標值:\n"

, iris.target)

print

("檢視目標值的名字:\n"

, iris.target_names)

# 資料集的劃分

x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=

0.2, random_state=22)

print

("訓練集的特徵值:\n"

, x_train, x_train.shape)

print

("訓練集的目標值:\n"

, y_train, y_train.shape)

return

none

datasets_demo(

)

機器學習一 機器學習概要

回歸 是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模,求解的一種統計方法。分類 是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測 是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法 正常資料為靠近密度中心的資...

機器學習一

機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道 什麼,即目標變數的分類資訊 1.1 分類 主要將例項資料劃分到合適的分類中。1.2 回歸 用於 數值型資料 無監督學習適用於資料沒有類別資訊,也沒有目標值。無監督學習中...

機器學習(一)

1.1 引言 基礎概念弄得清清楚楚,演算法作業也是信手拈來,這門課成績一定查不了!基於經驗的三個預判例子 微濕路面 感到和風 看到晚霞,預判第二天天氣很好 色澤青綠 根蒂捲縮 敲聲濁響,預判西瓜是好瓜 下足功夫 弄清概念 做好作業,預判會取得好成績。我們能做出有效的判斷,是因為我們已經積累了許多經驗...