《資料探勘導論》讀書筆記(一) 緒論

2022-07-10 04:00:12 字數 447 閱讀 4220

書名:資料探勘導論(introduction to data mining)
資料探勘是在大型資料儲存庫中,自動地發現有用資訊的過程。資料探勘技術用來探查大型資料庫,發現先前未知的有用模式。資料探勘還可以**未來觀測結果。

傳統資料分析技術遇到的實際問題:

可伸縮:需要處理海量資料,演算法必須是可伸縮的(scalable),可能需要新的資料結構等。

高維性:需要處理高維資料,某些資料分析演算法,隨著維度的增加,計算複雜度迅速增加。

異種資料和複雜資料:需要處理異種和複雜資料,如半結構化資料,傳統的資料分析方法只能處理包含相同型別屬性的資料集。

資料的所有權與分布:需要處理的資料不一定存放在同乙個站點或歸屬同乙個機構,這就需要開發分布式資料探勘技術。

非傳統的分析:傳統的統計方法基於一種假設-檢驗模式,即提出假設,設計實驗,分析資料,費力勞神。

《資料探勘導論》讀書筆記1

資料預處理 1.聚集 將兩個或者多個物件合併成單個物件。2.抽樣 一種選擇資料物件子集進行分析的常用方法。抽象方法 簡單隨機抽樣 和漸進抽樣 3.維度約 我覺得翻譯的不好,英文明細是降維。降維技術 1.pca principal components analysis 是一種用於連續屬性的線性代數技...

《資料探勘導論》讀書筆記11異常檢測

異常檢測的目標是發現與大部分其他物件不同的物件。通常,異常物件被稱作離群點 outlier 異常檢測也稱偏差檢測 deviation detection 因為異常物件的屬性值明顯偏離期望的或者常見的屬性值。異常檢測也稱為例外挖掘,因為異常在某種意義上是例外的。應用場景 欺詐檢測 入侵檢測 生態系統失...

《演算法導論》讀書筆記(一)

理解 輸入到輸出的計算過程稱為演算法。1.演算法描述 2.證明演算法正確性 3.分析演算法效率 兩個例子 1.插入排序 思想 從未排序的序列中取出乙個元素,將其插入到已排序序列的正確位置。實現 include include using namespace std int main for int ...