Python資料探勘與機器學習技術入門實戰

2021-08-17 17:04:50 字數 1835 閱讀 9925

課程主講簡介: 韋瑋

,企業家,資深it領域專家/講師/作家,暢銷書《精通python網路爬蟲》作者,阿里雲社群技術專家。

本次課程包含了五個知識點:

1.資料探勘與機器學習技術簡介  

2.python資料預處理實戰  

3.常見分類演算法介紹  

4.對鳶尾花進行分類案例實戰  

5.分類演算法的選擇思路與技巧

一、資料探勘與機器學習技術簡介

什麼是資料探勘?資料探勘指的是對現有的一些資料進行相應的處理和分析,最終得到資料與資料之間深層次關係的一種技術。例如在對超市貨品進行擺放時,牛奶到底是和麵包擺放在一起銷量更高,還是和其他商品擺在一起銷量更高。資料探勘技術就可以用於解決這類問題。具體來說,超市的貨品擺放問題可以劃分為關聯分析類場景。

在日常生活中,資料探勘技術應用的非常廣泛。例如對於商戶而言,常常需要對其客戶的等級(svip、vip、普通客戶等)進行劃分,這時候可以將一部分客戶資料作為訓練資料,另一部分客戶資料作為測試資料。然後將訓練資料輸入到模型中進行訓練,在訓練完成後,輸入另一部分資料進行測試,最終實現客戶等級的自動劃分。其他類似的應用例子還有驗證碼識別、水果品質自動篩選等。

那麼機器學習技術又是什麼呢?一言以蔽之,凡是讓機器通過我們所建立的模型和演算法對資料之間的關係或者規則進行學習,最後供我們利用的技術都是機器學習技術。其實機器學習技術是乙個交叉的學科,它可以大致分為兩類:傳統的機器學習技術與深度學習技術,其中深度學習技術包含了神經網路相關技術。在本次課程中,著重講解的是傳統的機器學習技術及各種演算法。

由於機器學習技術和資料探勘技術都是對資料之間的規律進行探索,所以人們通常將兩者放在一起提及。而這兩種技術在現實生活中也有著非常廣闊的應用場景,其中經典的幾類應用場景如下圖所示:

我有幾張阿里雲幸運券分享給你,用券購買或者公升級阿里雲相應產品會有特惠驚喜哦!把想要買的產品的幸運券都領走吧!快下手,馬上就要搶光了。

1、分類:對客戶等級進行劃分、驗證碼識別、水果品質自動篩選等

機器學習和資料探勘技術可以用於解決分類問題,如對客戶等級進行劃分、驗證碼識別、水果品質自動篩選等。

以驗證碼識別為例,現需要設計一種方案,用以識別由0到9的手寫體數字組成的驗證碼。有一種解決思路是,先將一些出現的0到9的手寫體數字劃分為訓練集,然後人工的對這個訓練集進行劃分,即將各個手寫體對映到其對應的數字類別下面,在建立了這些對映關係之後,就可以通過分類演算法建立相應的模型。這時候如果出現了乙個新的數字手寫體,該模型可以對該手寫體代表的數字進行**,即它到底屬於哪個數字類別。例如該模型**某手寫體屬於數字1的這個類別,就可以將該手寫體自動識別為數字1。所以驗證碼識別問題實質上就是乙個分類問題。

水果品質的自動篩選問題也是乙個分類問題。水果的大小、顏色等特徵也可以對映到對應的甜度類別下面,例如1這個類別可以代表甜,0這個類別代表不甜。在獲得一些訓練集的資料之後,同樣可以通過分類演算法建立模型,這時候如果出現乙個新的水果,就可以通過它的大小、顏色等特徵來自動的判斷它到底是甜的還是不甜的。這樣就實現了水果品質的自動篩選。

2、回歸:對連續型資料進行**、趨勢**等

除了分類之外,資料探勘技術和機器學習技術還有乙個非常經典的場景——回歸。在前文提到的分類的場景,其類別的數量都有一定的限制。比如數字驗證碼識別場景中,包含了0到9的數字類別;再比如字母驗證碼識別場景中,包含了a到z的有限的類別。無論是數字類別還是字母類別,其類別數量都是有限的。

現在假設存在一些資料,在對其進行對映後,最好的結果沒有落在某個0、1或者2的點上,而是連續的落在1.2、1.3、1.4...上面。而分類演算法就無法解決這類問題,這時候就可以採用回歸分析演算法進行解決。在實際的應用中,回歸分析演算法可以實現對連續型資料進行**和趨勢**等。

機器學習與資料探勘

機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...

機器學習演算法與Python學習 資料探勘過關40題

1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?a.關聯規則發現 b.聚類 c.分類 d.自然語言處理 2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?a 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。b 描述有多少比例的小偷給警察抓了的標準。...

資料探勘與機器學習入門

導論 機器學習演算法最適用的場景就是 不便用規則處理的場合 資料探勘 data mining 是有組織有目的地收集資料,通過分析資料使之成為資訊,從而在大量資料中尋找潛在規律以形成規則或知識的技術。機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸...