資料探勘與機器學習入門

導論：

機器學習演算法最適用的場景就是：不便用規則處理的場合

資料探勘（data mining）：是有組織有目的地收集資料，通過分析資料使之成為資訊，從而在大量資料中尋找潛在規律以形成規則或知識的技術。

機器學習(machine learning, ml)：是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心，是使計算機具有智慧型的根本途徑，其應用遍及人工智慧的各個領域。目前，世界上共有幾百種不同的機器學習演算法。

資料探勘與機器學習的關係：

機器學習可以用來作為資料探勘的一種工具或手段；

資料探勘的手段不限於機器學習，譬如還有諸如統計學等眾多方法；

機器學習的應用也遠不止資料探勘，其應用領域非常廣泛，譬如人工智慧；

classification (分類)：給定一堆樣本資料，以及這些資料所屬的類別標籤，通過演算法來對**新資料的類別（有先驗知識）

clustering(聚類 )：事先並不知道一堆資料可以被劃分到哪些類，通過演算法來發現資料之間的相似性，從而將相似的資料劃入相應的類，簡單地說就是把相似的東西分到一組（沒有先驗知識）

機器學習按照訓練資料是否有「先驗知識」，一般劃分為三類：

監督學習(supervised learning)

無監督學習(unsupervised learning)

半監督學習(semi-supervised learning)

例如，如果我們正在研究乙個市場活動的歷史資料，我們可以根據市場是否產生預期的反應來對資料進行分類，或決定下一步要花多少錢。監督式學習技術為**和分類提供了強大的工具。

例如，在某些欺詐的案例中，只有當事情發生很久以後，我們才可能知道某次交易是不是欺詐。在這種情況下，與其試圖**哪些交易是欺詐，我們不如使用機器學習來識別那些可疑的交易，並做出標記，以備後續觀察。我們對某種特定的結果缺乏先驗知識、但仍希望從資料中汲取有用的洞察時，就要用到無監督式學習。

需求分析

收集資料

探索資料特性

提取資料特徵並建模[dht3]

開發**（常用語言：r語言，python語言，spark mllib庫）

訓練模型[dht4]

應用系統整合（比如將訓練好的演算法模型整合到推薦系統中）

通用機器學習演算法應用工程技術架構

在資料探勘所用的機器學習演算法中，很大一部分問題都可以歸結為以下三個方面的數學知識：概率、距離、線性方程

樸素貝葉斯公式

也可以簡寫為：

其中:p(a)叫做a事件的先驗概率，即一般情況下，認為a發生的概率。

p(b|a)叫做似然度，是a假設條件成立的情況下發生b的概率。

p(a|b)叫做後驗概率，在b發生的情況下發生a的概率，也就是要求的概率。p(b)叫做標準化常量，即在一般情況下，認為b發生的概率。

歐式距離：也稱歐幾里得距離，在乙個n維度的空間裡，求兩個點的距離，這個距離肯定是乙個大於等於零的數字，那麼這個距離需要用兩個點在各自維度上的座標相減，平方後加和再開方。一維，二維，三維的歐式距離計算方法：

平方歐式距離：就是歐式距離的平方。

曼哈頓距離：相比歐式距離簡單的多，曼哈頓距離只要把兩個點座標的x座標相減取絕對值，y座標相減取絕對值，再加和，

余弦距離：也叫余弦相似度，是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。如果兩個向量的方向一致，即夾角接近零，那麼這兩個向量就越相近。要確定兩個向量方向是否一致，要用到餘弦定理計算向量的夾角。

閔可夫斯基距離：閔式距離不是一種距離，而是一組距離的定義，是對多個距離度量公式的概括性表述。兩個n維變數（可以理解為n維陣列，就是有n個元素）a()與b()間的閔可夫斯基距離定義為：

其中p是乙個變引數，當p=1時，就是曼哈頓距離，當p=2時，就是歐式距離，當p 就是切比雪夫距離。

切比雪夫距離：西洋棋中，國王可以直行、橫行、斜行。國王走一步，可以移動到相鄰的8個方格的任意乙個。國王從格仔到格仔最少需要多少步？這個距離就是切比雪夫距離。

切比雪夫距離公式簡單理解為就是各座標數值差的最大值，在2維空間中的計算公式為：

谷本距離：同時考慮余弦距離和歐式距離的測度。

加權距離測度：可以指定某一維度的權重比例，從而使某個權重的影響力更大。

資料探勘與機器學習入門

機器學習與資料探勘

Python資料探勘與機器學習技術入門實戰

資料探勘與機器學習釋義

資料探勘與機器學習入門

機器學習與資料探勘

Python資料探勘與機器學習技術入門實戰

資料探勘與機器學習釋義

相關推薦