pandas資料集的端到端處理

2022-10-04 18:06:10 字數 971 閱讀 4698

1. 資料集基本資訊

df = pd.read_csv()

df.head():前五行;

df.info():

對於非數值型的屬性列

df.describe():程式設計客棧 各個列的基本統計資訊

df.hist(bins=50, figsize=(20, 15)):統計直方圖;

對 df 的每一列進行展示:

train_prices = pd.dataframe()

# train_prices 共兩列,一列列名為 price,一列列名為 log(price+1)

train_prices.hist()

2. 資料集拆分

def split_train_test(data, test_ratio=.3):

shuffled_程式設計客棧indices = np.random.permutation(len(data))

test_size = int(len(data)*test_ratio)

test_indices = shuffled_indices[:test_size]

train_indices = shuffled_indices[test_size:]

return data.iloc[train_indices], data.iloc[test_indices]

3. 資料預處理

>> df['label'] = pd.categorical(df'label']).codes

>> df = pd.get_dummies(df)

>> df.isnull().sum().sort_values(ascending=false).head(程式設計客棧)

# 填充為 mean 值

>> mean_cols = df.mean()

>> df = df.fillna(mean_cols)

>> df.isnull().sum().sum()0總結

Deep Speech 端到端的語音識別

對於傳統的語音識別,通常會分為3個部分 語音模型,詞典,語言模型。語音模型和語言模型都是分開進行訓練的,因此這兩個模型優化的損失函式不是相同的。而整個語音識別訓練的目標 wer word error rate 與這兩個模型的損失函式不是一致的。對於端到端的語音識別,模型的輸入就為語音特徵 輸入端 而...

端到端的文字檢測識別

選自iccv 2017 澳大利亞阿德萊德大學 沈春華老師組的作品 towards end to end text spotting with convolutional recurrent neural networks 是目前為止第一篇提出端到端 ocr文字檢測 識別的文章。文章主要3點貢獻 1 ...

只是拒絕更多的端到端測試

通常,測試人員的工作在測試失敗後即告結束。提交了乙個錯誤,然後是開發人員修復錯誤的工作。然而,為了確定端到端戰略失敗的地方,我們需要在這個框外思考並從第一原則出發解決問題。如果我們 專注於使用者 以及其他所有人都會關注 我們必須問自己,失敗的測試如何使使用者受益。答案如下 失敗的測試不會直接使使用者...