基於資料探勘的人口變動規律1

1.通過屬性規約和屬性相關分析對資料進行預處理

2.對預處理後的屬性採用資訊增益方法構建決策樹

3.對決策樹表示的知識利用決策表的規則合併方法進行合併

4.最終得出人口變動規律：未婚的高學歷人口和未婚、低學歷的年輕人口有較高的流動率，老年人口流動率較低，其他人口流動率一般。

什麼是資料探勘？

資料探勘是從大量不完全，有雜訊，模糊，隨機的資料中提取隱含在其中的人們事先不知道的，但有用的資訊和知識的過程。

為什麼進行資料預處理？

由於人口資料中存在著許多與資料探勘任務不相關，冗餘的屬性，這些屬性可能會減慢資料探勘的程序，因此需要刪除。

進行屬性子集選擇，通過刪除不相關或冗餘的屬性來減少資料量。目的是為了找出最小屬性集，使得資料類的概率分布盡可能地接近使用所有屬性得到的原分布。

如何進行屬性子集選擇？

通常使用壓縮搜尋空間的啟發式演算法（貪心演算法）。策略是做區域性最優選擇，期望由此導致全域性最優解。

使用以下技術：

1.逐步向前選擇：由空屬性集作為歸約集開始，確定原屬性集中最好的屬性，將其新增到歸約集。然後進行迭代。

2.逐步向後刪除：該過程由整個屬性集開始。

3.逐步向前選擇和逐步向後刪除的組合

4.決策樹歸納

操作：①屬性消除：它基於以下規則進行：若乙個屬性（在初始資料集中）有許多不同數值，且（a）該屬性無法進行泛化操作（如：沒有定義相應的概念層次樹），或（b）它更高層次概念是用其它屬性描述的，這時該屬性就可以從資料集中消去.

②屬性泛化：它是基於以下規則進行：若乙個屬性（在初始資料集中）有許多不同數值，且該屬性存在一組泛化操作，則可以選擇乙個泛化操作對該屬性進行處理。

控制泛化過程的方法：

①屬性泛化閾值控制：該技術就是對所有屬性統一設定乙個泛化閾值，或每個屬性分別設定乙個閾值；若乙個屬性不同取值個數大於屬性泛化閾值，就需要對相應屬性作進一步的屬性消減或屬性泛化操作。資料探勘系統通常都有乙個預設屬性閾值（一般從2到8）

②泛化關係閾值控制：若乙個泛化關係中內容不相同的行數（元組數）大於泛化關係閾值，這就需要進一步進行相關屬性的泛化工作。否則就不需要作更進一步的泛化。通常資料探勘系統都預置這一閾值（一般為10到30）

這兩個技術可以序列使用，即首先應用屬性閾值控制來泛化每個屬性；然後再應用泛化關係閾值控制來進一步減少泛化關係的（規模）大小。

根據已有屬性集構造新的屬性，以幫助資料探勘過程。

構造屬性：變動狀態。

確定了目標變數後，需要進行關聯度分析，刪除那些與目標變數變動狀態無關的變數。最終確定可用於資料探勘的屬性。

選擇具有最高資訊增益的屬性作為當前節點的判斷屬性。

資料探勘的最終目標是知識發現，因此需要對上面的決策樹進行規則提取，清晰地表達出新的知識。將決策樹轉換成相應的決策表。並且可以進一步優化。

根據優化後的決策表得到結論。

2017-10-14