資料探勘 Chapter 3 資料預處理

2021-09-11 10:36:06 字數 490 閱讀 9229

如何對資料進行預處理,提高資料的質量,從而提高挖掘結果的質量

資料質量有六個要素:準確性、完整性、一致性、時效性、可信性、可解釋性

資料清理

缺失值常常被忽略、中心值填充等方式處理;雜訊資料則被分箱、回歸、離群點分析等方式迴避

資料整合

合併來自多個資料儲存的資料。可以使用實體識別確定等價實體;冗餘性和相關性分析去除冗餘資料

資料規約

資料規約有三種策略:維規約(降維,主成分分析、小波變換);數量規約(使用貪心演算法選擇屬性子集,聚類等方式引數化資料化約);資料壓縮

資料變換

資料變換的策略是光滑、屬性構造、聚類、規範化、離散化和由標籤資料產生概念分層。規範化、分箱、直方圖、聚類等方式進行資料變換。從而使得挖掘的模式更加容易理解

reference

han j. data mining: concepts and techniques[m]. 2005.

Chapter 3 棧與佇列

2.佇列 3.棧與佇列的應用 通常,棧可定義為只允許在表的末端進行插入和刪除的線性表。後進先出 lifo 棧的基本操作 解答演算法題時,若題幹未做出限制,則可直接使用這些基本的操作函式。p60 p62 利用棧底位置相對不變的特性,可讓兩個順序棧共享乙個一維資料空間,將兩個棧的棧底分別設定在共享空間的...

Chapter 3 軟體過程結構

由圖可以看出,每個框架活動由一系列軟體工程動作構成 每個軟體工程動作由任務集來定義,這個任務集明確了將要完成的工作任務 將要產生的工作產品 所需要的質量保證點,以及用於表明過程狀態的里程碑。過程模式 process pattern 描述了軟體工程工作中遇到的過程相關的問題,明確了問題環境並給出了針對...

Chapter 3 棧和佇列

一 棧和佇列的基本概念 棧的基本概念 只能在一端進行插入或刪除的線性表。進行插入或刪除操作的一端稱為棧頂,另一端為棧底,棧底是固定不變的。棧的特點 filo 先進後出 棧的儲存結構 順序棧和鏈式棧 和線性表類似 棧的數學性質 當n個元素以某種順序如棧,並在入棧的過程中可以隨時出棧時,最終在所有元素經...