機器學習不得不知的的特徵工程

2021-08-21 03:54:38 字數 765 閱讀 5803

何為特徵工程

特徵使用方案

1)要實現我們的目標需要哪些資料

2)可行性評估:獲取難度,覆蓋率,準確率

特徵獲取方案

1)如何獲取這些特徵?

2)如何儲存,什麼樣的形式儲存

特徵清洗

1)特徵清洗,異常樣本的清晰

2)取樣資料均衡問題

特徵預處理

1)對於單個特徵:歸一化,標準化,離散化,dummy coding,缺失值填充,資料變換(log,指數)

2)對於多個特徵:

降維(pca,lda)

不同型別資料的特徵處理

數值型:

類別型:

時間類:

文字型:

統計型:

異常資料常用處理方法

缺失值:

特徵數值分布長尾:

有偏度的特徵:

異常點:

資料縮放的手段

標準化:

用原始資料減去均值,再處以標準差。

歸一化:

原始資料減去最小值,除以最大值與最小值的差。

"用同一把尺子量資料"。

HTTP協議不得不知的基礎

http超文字傳輸協議,是乙個引用層協議,基於 請求與響應 模式,以url作為網路資源的定位。url的格式 http host port path 其中,host 為合法的internet主機網域名稱或者ip位址,port是埠值,預設埠為80,path為請求資源的路徑 資源定位 url 資源管理 六...

你不得不知的生活常識。。。。

1,涼水洗腳有損健康.2,夏季多吃苦味有益健康.3,多喝水能防腎結石.4,夏季不宜光著上身睡覺.5,冬季養生宜多食熱粥.6,冬季洗澡次數不宜多.7,冬季不宜長期待在溫暖房間.8,不宜長時間停留在冬季霧氣中.9,冬天不宜把圍巾當口罩用.10,冬天早晨不宜洗頭.11,健身前熱身活動很重要.12,運動損傷...

mysql編碼不得不知的問題

1 檢視mysql相關編碼 檢視mysql資料庫所支援的編碼 showcharacterset 檢視當前變數中的一些編碼情況 show variableslike character 檢視某個資料庫的編碼 showcreatedatabasedb name 檢視某個表的字符集 showcreatet...