機器學習一

機器學習是從歷史資料中自動分析(學習)，獲得模型(規律)，並利用模型對未知資料進行****(結果)**的過程。

學習–>規律–>**

資料集就是所謂的歷史資料

資料集一般由特徵值和目標值構成，資料集可以沒有目標值。

目標值：類別(離散型資料) ==》分類演算法 ==》（天氣陰雨晴等，人臉識別）

目標值：連續型的資料(具體的資料) ==》回歸演算法 ==》（天氣溫度具體的溫度數值）

目標值：無目標值 ==》聚類演算法

1 獲取資料

2 資料處理：處理缺失值，錯亂資料

3 特徵工程：訓練資料和測試資料。將資料處理成能被演算法直接使用的資料。

4 機器學習演算法訓練：得到模型

5 模型評估：如果效果不好，需要返回到2,3,4，進行處理，迴圈處理直到效果滿意。

###2.1.1 可用資料集

學習階段可用資料集：

1 sklearn

2 kaggle

3 uci

1 sklearn資料集api介紹：

sklearn.datasets

載入獲取流行資料集方法：

datasets.load_*()：獲取小規模資料集，資料報含在datasets裡面

sklearn小資料

sklearn.datasets.load_iris()：載入並返回鳶尾花資料集

sklearn.datasets.load_boston()：載入並且返回波士頓房價資料集

sklearn大資料集

sklearn.datasets.fetch_20newsgroups(data_home=none,subset=「train」)

subset:「train"或者"test」, 「all」, 可選，選擇要載入的資料集。訓練集的"訓練"，測試集的"測試"，兩者的全部

以鳶尾花資料集為例，sklearn資料集的返回值介紹

load和fetch返回的資料型別 **datasets.base.bunch **字典格式(繼承自字典)

data：特徵值陣列，是[n_samples*n_features]的二維 numpy.ndarray陣列

target: 目標值，標籤陣列，是n_samples的一維 numpy.ndarray 陣列

descr：陣列描述

feature_names: 特徵名，新聞資料，手寫數字，回歸資料集

target_names: 目標值-標籤名

datasets.base.bunch(字典格式(繼承自字典)

格式： dict[「key」] = values (繼承自字典的索引)

特有格式：

bunch.key = values (.模式)

機器學習一般的資料集會分為兩個部分：

訓練資料：用於訓練，構建模型

測試資料：在模型檢驗時使用，用於評估模型是否有效

劃分比例：

訓練集：70% 80% 75%

測試集：30% 20% 30%

資料集劃分api

sklearn.model_selection.train_test_split(arrays,*options)

傳參：

x：資料集的特徵值

y：資料集的標籤值(目標值)

test_size：測試集的大小，一般為float(0.2)

random_state：隨機數種子，不同的種子會造成不同的隨機取樣結果，相同的種子取樣結果相同

return：訓練集特徵值，測試集特徵值，訓練集目標值，測試集目標值

return:：x_train，x_test，y_train，y_test

**:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
defdatasets_demo()
:"""
sklearn 資料集使用
:return:
"""# 獲取資料集
iris = load_iris(
)print
("鳶尾花資料集：\n"
, iris)
print
("檢視資料集描述：\n"
, iris[
"descr"])
print
("檢視特徵值的名字：\n"
, iris.feature_names)
print
("檢視特徵值：\n"
, iris.data, iris.data.shape)
print
("檢視目標值：\n"
, iris.target)
print
("檢視目標值的名字：\n"
, iris.target_names)
# 資料集的劃分
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=
0.2, random_state=22)
print
("訓練集的特徵值：\n"
, x_train, x_train.shape)
print
("訓練集的目標值：\n"
, y_train, y_train.shape)
return
none
datasets_demo(
)

機器學習一機器學習概要

回歸是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模，求解的一種統計方法。分類是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法正常資料為靠近密度中心的資...

機器學習一

機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道什麼，即目標變數的分類資訊 1.1 分類主要將例項資料劃分到合適的分類中。1.2 回歸用於數值型資料無監督學習適用於資料沒有類別資訊，也沒有目標值。無監督學習中...

機器學習（一）

1.1 引言基礎概念弄得清清楚楚，演算法作業也是信手拈來，這門課成績一定查不了！基於經驗的三個預判例子微濕路面感到和風看到晚霞，預判第二天天氣很好色澤青綠根蒂捲縮敲聲濁響，預判西瓜是好瓜下足功夫弄清概念做好作業，預判會取得好成績。我們能做出有效的判斷，是因為我們已經積累了許多經驗...

機器學習 一

機器學習一 機器學習概要

機器學習一

機器學習（一）

相關推薦

機器學習一

機器學習一機器學習概要