numpy學習 資料預處理

2022-08-20 15:09:15 字數 978 閱讀 3600

待處理的資料:150*150的灰度,除分析目標外,背景已經抹0

需要實現的目標:背景數字0不變,對其餘數字做乙個歸一化處理

對list處理可以用

a=list(set(a)) # 實現了去除重複元素並排序

對array處理可以用np.unique()這個函式,可以去除其中重複的元素,並按元素由大到小返回乙個新的無元素重複的元組或者列表

import

numpy as np

a = [1, 2, 2, 3, 4, 3]

a =np.unique(a)

print(a) #

輸出為 [1 2 3 4]

a, b, c = np.unique(a, return_index=true, return_inverse=true)

print(a, b, c) #

輸出為 [1 2 3 4], [0 1 3 4], [0 1 1 2 3 2]

發現乙個函式非常適合了:np.where()

img = (img-min)/(max-min)

arr = np.where(img <= 1, img, 0)

numpy.

where

(condition, [x, y])

1、這裡x,y是可選引數,condition是條件,這三個輸入引數都是array_like的形式;而且三者的維度相同

2、當conditon的某個位置的為true時,輸出x的對應位置的元素,否則選擇y對應位置的元素;

3、如果只有引數condition,則函式返回為true的元素的座標位置資訊;

今天還學到了乙個新函式記錄一下:

np.maximum:(x, y, out=none) 

1、x 與 y 逐位比較取其大者;

2、最少接收兩個引數

總結:對numpy庫還非常不熟悉,要慢慢學習。

機器學習 資料預處理

均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...

機器學習 資料預處理

1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...