機器學習入門(一) 演算法分類和資料集呼叫

2021-10-21 17:22:04 字數 2902 閱讀 5571

一.機器學習演算法分類:

1.監督學習:目標值:類別(離散型資料)------分類問題(例如圖1對貓狗分類)

分類演算法:k-近鄰演算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸

目標值:連續性資料(房屋**等)------回歸問題(例如圖2對房屋****)

回歸演算法:線性回歸、嶺回歸

2.無監督學習:

目標值:無------無監督學習(例如圖3,對一群人進行分類但無目標值)

聚類演算法:k-means

圖1

圖2

圖3總結:

二.sklearn資料集使用

常用框架:

機器學習框架:sklearn

深度學習框架:tensorflow、pytorch、caffe2、theano、chainer

常用的公共資料集:sklearn、kaggle、uci

1.呼叫sklearn庫中的資料集

可用datasets.load_***()he datasets.fetch_***(dataset=none)載入

返回值:

返回值型別是datasets.base.bunch(字典格式),含五個鍵值對:

data:特徵資料陣列

target:標籤陣列

descr:資料描述

feature_names:特徵的名字(新聞資料、手寫數字、回歸資料集沒有)

target_names:標籤名

from sklearn.datasets import load_iris

defdatasets_demo()

: iris=load_iris(

)print

('鳶尾花資料集:\n'

,iris)

print

('檢視資料集描述:\n'

, iris[

'descr'])

print

('檢視特徵值的名字:\n'

, iris.feature_names)

print

('檢視特徵值:\n'

2.資料集劃分

使用sklearn.model_selection.train_test_split(arrays,*option)

:#獲取資料集

iris=load_iris(

)print

('鳶尾花資料集:\n'

,iris)

print

('檢視資料集描述:\n'

, iris[

'descr'])

print

('檢視特徵值的名字:\n'

, iris.feature_names)

print

('檢視特徵值:\n'

, iris.data, iris.data.shape)

#資料集劃分

x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=

0.2,random_state=22)

print

('訓練集的特徵值:\n'

機器學習分類演算法(一)k NN分類演算法

k kk nn分類器是最簡單的機器學習分類演算法之一,它的基本思想是 從訓練樣本集中找出與測試樣本 距離 最近的k個樣本作為此測試樣本的 鄰居 然後根據這k個樣本的類別基於一定規則進行投票表決,最高的決定為測試樣本的 類別。用乙個詞來說就是 近朱者赤近墨者黑 由以上所述可以得知,k近鄰分類演算法主要...

機器學習(一) 快速入門線性分類器

x x1,x2,xn 代表n維特徵列向量,w w1,w2,wn 代表對應的權重 係數 coeffient 同時為了避免其過座標原點這種硬性假設,增加乙個截距 intercept b。f取值範圍分布在整個實數域中.線性其實就是一系列一次特徵的線性組合,在二維空間中是一條直線,在三維空間中是乙個平面。要...

機器學習分類演算法 一 余弦相似度

數學原理 向量 空間中有兩個點原點o和點a,oa o指向a 就是乙個向量,向量是有長度有方向的。點積 內積 oi ai 向量長度 a sqrt sqrt a a 余弦公式 cos a b a b ai bi sqrt a a sqrt b b 應用舉例 文字新聞分類 原理 將爬出來的文章用jieba...