機器學習基礎概念

聚類：將本身沒有類別的樣本聚集成不同的組，這樣的一組資料物件的集合叫做簇，並且對每乙個這樣的簇進行描述的過程，他的目的是使得屬於同乙個簇的樣本之間應該彼此相似，而不同簇的樣本應該足夠不相似。

資料預處理：在資料探勘之前使用，大大提高了資料探勘的質量

處理缺失值：

將含有缺失值的記錄刪除

根據變數之間的相關關係填補缺失值

根據案例之間的相似性填補缺失值

最小支援度計數為3，表示個數要大於等於3的才是頻繁項

最小支援度的閾值，出現次數低於最小閾值的元素項將直接被忽略

最小支援度

最小置信度

離散變數是指其數值只能用自然數或者整數單位計算，

在一定區間內可以任意取值的變數叫連續型變數，其數值是連續不斷的，相鄰兩個數值可以無限分割

年齡是連續型變數

連續屬性的離散化就是在特定的連續屬性的值域範圍內設定若干個離散化的劃分點，將屬性的值域範圍劃分為一些離散化區間，最後用不同的符號或整數值代表落在每個子區間中的屬性值

目的是簡化資料結構

fp樹的解讀方式是讀取某個節點開始到根節點的路徑。路徑上的元素構成乙個頻繁項集，開始節點的值表示這個項集的支援度，

為構建fp樹，然後利用它來挖掘頻繁項集，需要對原始資料集掃瞄兩遍，第一遍是對所有元素項的出現次數進行計數，資料庫的第一遍掃瞄用來統計出現的頻率，而第二遍掃瞄中只考慮那些頻繁元素

資料量大 tb pb eb zb yb hdfs 速度快資料增長速度快資料處理速度快價值密度低密度有價值資料 all 機器學習演算法解決人工智慧機器學習深度學習的關係資料資料分析資料探勘機器學習致力於研究如何通過cpu和gpu 圖形處理器的計算，利用經驗資料來改善計算...

lstm rnn長短期記憶rnn 自編碼autoencoder 生成對抗網路gan 梯度下降 gradient descent 人體900億神經細胞組體神經網路。神經網路的構建可稱之人工神經元的組合，在外部刺激上不斷改變自身。人工神經網路可以分為輸入層，隱藏層資訊的加工處理層輸出層。中間的 ...

監督學習分類和回歸屬於監督學習。這類演算法必須知道什麼，即目標變數的分類資訊。常見演算法 k 近鄰演算法線性回歸樸素貝葉斯演算法支援向量機決策樹 lasso最小回歸係數估計 ridge回歸區域性加權線性回歸無監督學習資料沒有類別資訊，不給定目標值。常見演算法 k 均值最大期望演算...