機器學習 二 機器學習基礎

2021-08-30 08:56:03 字數 2138 閱讀 6223

機器學習基礎概念

關於資料

監督學習: 機器學習的基本任務,具體可以做什麼?

結果是乙個連續數字的值,而非乙個類別;

回歸任務可以劃分成分類任務。

給機器的訓練資料擁有『標記』或者『答案』。

例如:1.影象已經擁有了標定資訊

2.銀行已經積累了一定的客戶資訊和他們信用卡的信用情況

3.醫院已經積累了一定的病人資訊和他們最終確診是否患病的情況

4.市場積累了房屋的基本資訊和最終成交的金額

我接下來寫的基本都是監督學習的演算法:

k鄰近線性回歸和多項式回歸

邏輯回歸

svm決策樹和隨機森林

給機器的訓練資料沒有任何『標記』或者『答案』。

例如:

對資料進行降維處理

特徵提取:信用卡的信用評級和人的胖瘦無關?

特徵壓縮:pca(在盡量少的損失資訊的情況下將高維的特徵想想壓縮成低維的特徵向量)

一部分資料有『標記』或者『答案』,另一部分資料沒有。

更常見:各種原因產生的標記缺失。

通常都是先使用無監督學習手段對資料做處理,之後用監督學習手段做模型的訓練的**。

無人駕駛、機械人。

監督學習和半監督學習是基礎。

優點:簡單

問題:如何適應環境變化?

解決方案:定時重新批量學習。

缺點:每次重新批量學習,運算巨大,在某些環境變化非常快的情況下,甚至不可能的。

優點:即使反映新的環境變化。

問題:新的資料帶來不好的變化?

解決方案:需要加強對資料進行監控。

其他:也適用於資料量巨大,完全無法批量學習的環境。

利用原有資料集,找到引數,求得方程,不需要原來引數。

1. 不對模型進行過多假設。

2.非引數不等於沒引數。

資料即演算法?

1.資料確實非常重要。

2.資料驅動

收集更多的資料

提高資料質量

提高資料的代表性

研究更重要的特徵

奧卡姆的剃刀:

簡單的就好。

到底在機器學習領域,什麼叫做『簡單』

沒有免費的午餐定理:

可以嚴格地數學推導出:任意兩個演算法,他們的期望效能事相同的!

具體到某個特定問題,有些演算法可能更好。

但是沒有一種演算法,絕對比另一種演算法好。

脫離具體問題,談哪個演算法好是沒有意義的。

在面對乙個具體問題的時候,嘗試使用多種演算法進行對比試驗,是必要的。

其他思考?

面對不確定的世界,怎麼看待使用機器學習進行**的結果?

六、環境搭建

anaconda  python一鍵安裝環境

機器學習基礎 機器學習基礎引入

機器學習 是人工智慧的核心研究領域之一,其最初的研究動機是為了讓計算機系統具有人的學習能力以便實現人工智慧。事實上,由於 經驗 在計算機系統中主要是以資料的形式存在的,因此機器學習需要設法對資料進行分析,這就使得它逐漸成為智慧型資料分析技術的創新源之一。機器學習是構建複雜系統的一種方法,也許依靠我們...

機器學習 機器學習基礎

資料集劃分的api 返回值 訓練特徵,測試特徵,訓練目標,測試目標 方式1 獲取小規模的資料集 importsklearn.datasets as datasets iris datasets.load iris 提取樣本資料 feature iris data target iris target...

機器學習基礎學習筆記 機器學習基礎介紹

概念 多領域交叉學科,設計概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。學科定位 人工智慧 artificial intelligence,ai 的核心,是是計算機具有智慧型...