智慧型資訊導論之資料處理

2021-09-12 13:17:52 字數 1179 閱讀 5411

忽略元祖,

忽略屬性列,缺失值太多

人工填寫缺失值

自動填充缺失值,用平均值或回歸分析,決策樹,推理樹填充

分箱:將資料分到幾個箱子,每個箱子單獨處理

聚類回歸化

1.最大最小規範化

v =v

−min⁡a

maxa

−min⁡b

v=\frac

v=maxa

​−minb​v

−mina​

​ 2.中心距離處以發散度

z-zero score規範化

3.小數定標規範化

v =v

10

jv=\frac

v=10jv

​j是使得max(|v|)<1的最小整數

把0-11歲劃分為嬰兒,12~20為青年

先聚類再劃分

抽樣

小波變換,pca

svd奇異值分解

向前選擇,每次選擇最好的放在乙個新陣列

向後刪除,每次選個最差的刪掉輸入資料集 和 目標特徵c 閾值

第一步計算每個特徵和目標特徵的相關性suk

csu_

sukc

​大於閾值,則選擇該特徵,得到新的特徵陣列

第二步使得資料離散化,特徵相互之間相互關係不大,只與目標特徵相關關係大

即把所有suk

j>su

kc

su_>su_

sukj

​>su

kc​的特徵都刪掉,即當檢測到特徵k和特徵j他們之間相關性很大的時候就去掉他們,保證選到的特徵相互之間的關係步大

ordinal順序關係(低溫和高溫,學生成績中和優之間)

不相似度d=∣

x−y∣

/(n−

1)

d=|x-y|/(n-1)

d=∣x−y

∣/(n

−1)nominal(顏色之間)

idea>stategy>method>algorithm>programming

條件資訊熵

smc ****** matching coefficient

Python之資料處理

靠別人不如靠自己,學學學學學學學學!原資料 需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...

python之資料處理

檔案資料讀寫的基本操作 import this 本地檔案的界定 指向乙個本地儲存的檔案,是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達 再或者用r 寫在檔案路徑外面 推薦第三種 path2 c users...

資料互動之資料處理

資料互動必須通過協議來實現,所以互動雙方必須遵循一定的讀寫規則 我的方法很簡單但可以用,如果大家有好的方法,不妨交流一下 實現方法 資料流類datastream有兩個char 型指標,分別用來儲存讀寫的資料,還有w pos,r pos兩個資料用來記錄讀寫的位置,而且要用到互斥鎖,確保指標的安全性 v...