機器學習要點（二）資料處理相關

重取樣技術

1、隨機欠取樣

優點：它可以提公升執行時間；並且當訓練資料集很大時，可以通過減少樣本數量來解決儲存問題。

缺點：它會丟棄對構建規則分類器很重要的有價值的潛在資訊。被隨機欠取樣選取的樣本可能具有偏差。它不能準確代表大多數。從而在實際的測試資料集上得到不精確的結果。

2、隨機過取樣

優點：與欠取樣不同，這種方法不會帶來資訊損失。表現優於欠取樣。

缺點：由於複製少數類事件，它加大了過擬合的可能性。

3、基於聚類的過取樣（cluster-basedover sampling）

優點：這種聚類技術有助於克服類之間不平衡的挑戰。表示正例的樣本數量不同於表示反例的樣本數量。

有助於克服由不同子聚類組成的類之間的不平衡的挑戰。每乙個子聚類不包含相同數量的例項。

缺點：正如大多數過取樣技術，這一演算法的主要缺點是有可能過擬合訓練集。

4、資訊性過取樣：合成少數類過取樣技術（smote）

優點：通過隨機取樣生成的合成樣本而非例項的副本，可以緩解過擬合的問題。

不會損失有價值資訊。

缺點：當生成合成性例項時，smote並不會把來自其他類的相鄰例項考慮進來。這導致了類重疊的增加，並會引入額外的噪音。

5、改進的合成少數類過取樣技術（msmote）

資料增強（dataaugmentation）

不同的任務背景下, 我們可以通過影象的幾何變換, 使用以下一種或多種組合資料增強變換來增加輸入資料的量. 這裡具體的方法都來自數字影象處理的內容。

· 旋轉 | 反射變換(rotation/reflection):隨機旋轉影象一定角度; 改變影象內容的朝向;

· 翻轉變換(flip): 沿著水平或者垂直方向翻轉影象;

· 縮放變換(zoom): 按照一定的比例放大或者縮小影象;

· 平移變換(shift): 在影象平面上對影象以一定方式進行平移;

可以採用隨機或人為定義的方式指定平移範圍和平移步長, 沿水平或豎直方向進行平移. 改變影象內容的位置;

· 尺度變換(scale): 對影象按照指定的尺度因子, 進行放大或縮小; 或者參照sift特徵提取思想, 利用指定的尺度因子對影象濾波構造尺度空間. 改變影象內容的大小或模糊程度;

· 對比度變換(contrast): 在影象的hsv顏色空間，改變飽和度s和v亮度分量，保持色調h不變. 對每個畫素的s和v分量進行指數運算(指數因子在0.25到4之間), 增加光照變化;

· 雜訊擾動(noise): 對影象的每個畫素rgb進行隨機擾動, 常用的雜訊模式是椒鹽雜訊和高斯雜訊;

· 顏色變換(color): 在訓練集畫素值的rgb顏色空間進行pca, 得到rgb空間的3個主方向向量,3個特徵值, p1,p2, p3, λ1, λ2, λ3. 對每幅影象的每個畫素ixy=[irxy,igxy,ibxy]t進行加上如下的變化:

[p1,p2,p3][α1λ1,α2λ2,α3λ3]t

其中:αi是滿足均值為0,方差為0.1的隨機變數.

Revit資料處理要點（二）

這裡主要補充說明之前arcgis pro2.7 revit資料處理要點中提到的在autodesk revit 2018中調整專案基點座標到真實投影座標的情況。這裡介紹的我遇到的情況如下 1 在gis中有建模時候的向量基礎資料，就是一些點和線，其中，有乙個點為建模的基準點標準點也就是在建模人員在a...

機器學習資料處理

又給我報keyerror date 錯誤，心態崩了沒事，回到1170的錯誤，他的本意是我的資料型別不對，那麼我換個資料型別，並且限制他的長度，感謝這位小夥伴的分享在to sql方法引數中dtype，將date列轉化為varchar d1111.to sql d1111 engine,if exi...

資料處理相關

資料集分為特徵值和目標值由特徵值得到目標值對特徵值的處理為特徵工程 1 缺失值處理 2 重複值的去重特徵工程的意義提高對未知資料的字典特徵資料抽取對字串轉成數字的，類 sklearn.feature extraction.dictvectorizer 文字特徵抽取類 sklearn.f...

機器學習要點（二） 資料處理相關

Revit資料處理要點（二）

機器學習 資料處理

資料處理相關

相關推薦

機器學習要點（二）資料處理相關

機器學習資料處理