機器學習入門(一)

2021-08-11 07:50:00 字數 734 閱讀 5588

分類和回歸:均為**過程,其中分類是對離散值的**,回歸是對連續值的**。

監督學習和無監督學習:就看輸入資料是否有標籤(label)。輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習(聚類)。監督學習就是給輸入的無標籤資料新增標籤的過程。

資料集的劃分方法

1.留出法,即把資料集分為兩部分 ,一般來說是8:2,8的那部分當訓練集,2的那部分當測試集。

2.交叉驗證法,即把資料集劃分為10部分,每次拿9部分作為訓練集,剩下一部分作為測試集,重複10次以保證每個部分都被當成過測試集。

3.自助法,即每次在資料集中抽取乙個元素,完成拷貝,並且放回資料集,這樣當次數足夠多時,可由基本極限知道,大約有0.368的資料始終不被採集到。因此,可以把採集到的部分作為訓練集,沒採集到的作為測試集。

效能度量方式:

(回歸)均方誤差:即把**的和真實的的值做差的平方和。

roc和auc

偏差和方差

線性模型

線性模型是最基本的模型,但是也可以有很多變化,例如可以兩邊取對數等。另外廣義的線性模型還包括對數機率函式(用於分類任務)

線性判別法:lda的思想相當簡單,就是同類的盡量靠近,不同的盡量遠離。

需要了解的方法:最小二乘法

多分類學習:將多分類拆解為二分類。

機器學習入門 一)

年後又開始新一輪的學習了。今天我來複習跟鞏固機器學習的基礎概念。我們將機器學習系統按他們的特點分類 是否在人類監督下訓練。例如 有監督學習,無監督學習,半監督學習,強化學習。是否簡單地將新的資料點和已知的資料點進行匹配,還是像科學家一樣,對訓練資料進行模式檢測然後建立乙個 模型。例如 基於例項的學習...

機器學習入門 一

上大學的時候人工智慧火了一段時間 雖然現在還是虛假的繁榮現象 但是不得不說人工只能肯定是未來的發展方向,所以我們就有必要了解其基本的理論原理,當然了我寫出來的東西肯定不會和數學特別相關,因為我概率論差啊,那段時間沉迷遊戲,然後60多分飄過,所以各位肯定是比我牛逼的。我參考的書籍是 機器學習及實踐 範...

機器學習(一) 機器學習入門常識

機器學習常常劃分為三個方面 分類問題 因為有了標籤值,根據演算法,將樣本歸於哪一類。邏輯回歸,決策樹,隨機森林,svm 回歸問題 是乙個連續值,根據樣本上的一些特徵,連續值結果。聚類問題 因為沒有標籤以及明顯的劃分標準,根據樣本的相似性或者關聯關係,把類似的歸於一類 常用的一些術語 對於結構化資料,...