資料探勘導論（二）

序數：能確定物件的序，即大小關係。(,>=)例：礦石程度（好，較好，最好）

區間：可以進行差值比較。(+,-)

例：日曆日期

比例：除了能進行差值比較還能進行比率比較。 (*，/)例：長度

測量誤差：記錄的值與實際值不同誤差=測量值-實際值

資料收集錯誤：遺漏資料或者不當地包含了其他資料

雜訊：測量誤差的隨機部分，使值被扭曲或者加入了謬誤物件通常用於包含時間或者空間的分量

偽像：確定性失真如一組**在同一地方出現條紋

精度：重複測量值之間的接近程度。通常用標準差度量

偏倚：測量值與被測量之間的系統的變差。通常用均值-測出的已知值度量

聚集：將兩個或多個物件合併成單個物件通常通過求和或者求平均值

抽樣：選擇資料物件子集：簡單隨機抽樣，分層抽樣，漸進抽樣

維歸約：選擇舊屬性的子集得到新屬性：成為特徵子集選擇或特徵選擇

特徵子集選擇：嵌入方法，過濾方法，包裝方法

線性代數技術：主成分分析（pca）用於連續屬性，奇異值分解（svd）

維歸約：通過建立新屬性，將一些舊屬性合併在一起降低資料集的維度。

特徵建立：特徵提取，對映資料到新空間（傅利葉變換或者小波變換），

特徵構造：由乙個或者多個原始特徵構造新特徵例：密度=質量/體積更好對材料分類

離散化和二元化：

離散化：連續屬性轉變為離散屬性。本質：選擇多少個分割點和確定分割點位置

二元化：將m個分類值按照[0,m-1]賦值，用n=log2m取天棚個二進位來表示。分為有關聯的和非對稱的（關聯分析）

變數變換：

簡單函式：平方根，對數，倒數常用來變換成高斯分布

規範化和標準化：x=（x-平均數）/標準差

因為受離群值影響很大，用中位數代替均值。用絕對標準差取代標準差

鄰近度：表示相似性或者相異性。

將相似度轉換成相異度或相反，或者把鄰近度變換到乙個特定空間，如[0,1]

一般來說，相似度轉換到[0,1]由下公式給出：s'=(s-mins)/(maxs-mins)

將相似度變換成相異度或相反。

歐幾里得距離

閔可夫斯基距離來推廣

度量：滿足非負性，對稱性，三角不等式。

非度量的相異度：集合差，時間

只能用於二元屬性：

可用於所有屬性：

距離度量的標準化和相關性使用mahalanobis距離

組合異種屬性的相似度：如果兩個物件非對稱屬性上的值都為0，則計算相似度時忽略他們，可以很好地處理遺漏值

使用權值

對於稠密的，連續的資料，通常使用距離如歐幾里得距離

對於稀疏的，常常包含非對稱屬性，通常忽略0-0匹配，使用余弦，jaccard係數和廣義jaccard係數是合適的

資料探勘導論

20世紀60年代，從檔案處理演化到資料庫系統 20世紀70年代，演化到關聯式資料庫，聯機事務處理 oltp 將查詢看做唯讀事務 80年代中期到現在，研究分布性多樣性和資料共享等問題，還有基於internet的全球資訊系統 80年代後期到現在，出現的資料庫結構是資料倉儲，可將多個一種資料來源在單個站...

資料探勘導論

誤差平方均值，越小越好從大家直觀的感受，這三個模型哪個更好？左上？右上？還是左下？右上，因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段，來幫助我們發現過擬合？擬合曲線的引數過多。分訓練集和測試集，設定測試資料用於判斷擬合的情況。泛化誤差模型在新樣本...

《資料探勘導論》學習筆記（二）

資料探勘導論第四章分類基本概念決策樹與模型評估分類的定義分類任務就是通過學習得到乙個目標函式f，把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型，有兩個主要目的 1 描述性建模 2 性建模分類適用於兩元或標稱型別的資料集，即離散的資料集。決策樹分類法選擇最佳劃分的...

資料探勘導論 （二）

資料探勘導論

資料探勘導論

《資料探勘導論》學習筆記（二）

相關推薦

資料探勘導論（二）