資料處理相關

2021-10-01 15:12:47 字數 842 閱讀 1525

資料集分為特徵值和目標值

由特徵值得到目標值

對特徵值的處理為特徵工程

1、缺失值處理

2、重複值的去重

特徵工程的意義:提高對未知資料的**

字典特徵資料抽取

對字串轉成數字的,

類:sklearn.feature_extraction.dictvectorizer

文字特徵抽取

類:sklearn.feature_extraction.text.countvectorizer

中性詞語

分類時,文章都出現 所以,明天,我們 那麼都歸為一類??

類:sklearn.feature_extraction.text.tfidfvectorizer

tf idf

最終相乘的結果

tf:term_frequency::詞的頻率 出現的次數

idf:inverse document frequency 逆文件頻率 log(總文件數量/該詞出現的文件數量)

歸一化及標準化

資料降緯主成分分析(pca)

找到一條最好的直線或者平面

特徵數量達到上百的時候

資料也會改變,特徵數量也會減少

轉化器

fit_transform():輸入資料直接轉換

fit():輸入資料,但不做事情

+transform():進行資料的轉換

估計器

實現演算法

python資料處理相關

1.enumerate sequence,start 0 函式 列舉函式,傳入乙個序列或迭代物件,列舉輸出乙個序號物件。可用於對序列資料進行編號。2.字串的split 方法和strip 方法 同屬字串物件的方法。split 方法用於指定分割字元並返回乙個字串列表。strip 方法用於去除掉首位的指定...

資料處理相關的優化

等深層機制應用和研究,只是些膚淺應用和建議 關於資料處理相關的優化 一 sqldataread 和dataset 的選擇 sqldataread優點 讀取資料非常快。如果對返回的資料不需做大量處理的情況下,建議使用sqldatareader,其效能要比datset好很多。缺點 直到資料讀完才可clo...

時間顆粒度相關資料處理

原始資料為顆粒度1秒資料,下面的方法裡可以自定義時間顆粒度,獲取處理後的資料!arr1 array array time 1523714540,pv 50,exec 20 array time 1523714541,pv 40,exec 10 array time 1523714542,pv 30,...