Python機器學習基礎(二)

2021-10-05 10:04:02 字數 713 閱讀 6228

什麼是監督學習?

當我們希望通過某些輸入來**對應的輸出,這時候就需要先使用已經存在的輸入/輸出資料對來訓練模型,這些資料對中,每乙個輸入都乙個已知的輸出,我們就是讓機器去學習這其中的規律

基本介紹

監督學習問題主要分為兩種:分類與回歸

分類問題:**類別標籤。比如在(一)中實現的鳶尾花分類

回歸問題:**乙個連續值。比如根據教育水平,年齡和居住地來**乙個人的年收入

區分分類任務與回歸任務的簡單方法:就是輸出是否具有某種連續性。

基本介紹

泛化:如果乙個模型能夠對沒見過的資料做出準確 **,我們就說它能夠從訓練集泛化(generalize)到測試集

過擬合:如果在擬合模型時過分關注訓練集的細節,得到了乙個在訓練集上表現很好、但不能泛化到新資料上的模型,這種情況就存在過擬合

欠擬合:模型在訓練集上的表現就很差,選擇過於簡單的模型被稱為欠擬合

總結:我們的模型越複雜,在訓練資料上的**結果就越好。但是,如果我們的模型過於複雜, 我們開始過多關注訓練集中每個單獨的資料點,模型就不能很好地泛化到新資料上。

模型複雜度與資料集大小的關係

模型複雜度與訓練資料集中輸入的變化密切相關,資料集中包含的資料點變化範圍越大,在不發生過擬合的前提下可以使用的模型就越複雜,對監督學習任務往往特別有用

python機器學習基礎(二)

python機器學習基礎教程 一 k近鄰演算法scikit learn中有很多可用的分類演算法。這裡我們用的是k近鄰分類器,這是乙個很容易理解的演算法。核心思想是 要對乙個新的資料點作出 演算法會在訓練集中尋找與這個新資料點距離最近的資料點,然後將找到的資料點的標籤賦值給這個新資料點。k近鄰演算法中...

機器學習 二 機器學習基礎

機器學習基礎概念 關於資料 監督學習 機器學習的基本任務,具體可以做什麼?結果是乙個連續數字的值,而非乙個類別 回歸任務可以劃分成分類任務。給機器的訓練資料擁有 標記 或者 答案 例如 1.影象已經擁有了標定資訊 2.銀行已經積累了一定的客戶資訊和他們信用卡的信用情況 3.醫院已經積累了一定的病人資...

Python 機器學習基礎

pandas matplotlib reference numpy 的資料結構 numpy的基本操作 當進行 和 等邏輯判斷時,numpy會對array中所有元素進行判斷。import numpy vector numpy.array 5,10,6,7 vector 10 output array ...