機器學習 資料處理

2021-09-10 08:16:09 字數 525 閱讀 8520

···又給我報keyerror: 'date』錯誤,心態崩了

沒事,回到1170的錯誤,他的本意是我的資料型別不對,那麼我換個資料型別,並且限制他的長度,感謝這位小夥伴的分享

在to_sql方法引數中dtype,將date列轉化為varchar

d1111.to_sql(『d1111』,engine,if_exists=『replace』,

dtype=)

這中間一大段d1111.index.get_level_values(『date』).str.len().max(),就是求date列轉化為字串的最大長度,用來限制給varchar

其實更簡單,取個值,比如10

d1111.to_sql(『d1111』,engine,if_exists=『replace』,

dtype=)

原本是求date列的最大長度,防止取值會丟失資訊,這裡是日期,10個大小就夠了

ok,資料down下來存資料庫完畢,現在就是存資料,坑真多······

根據我們的學習流水線,首先是對行業進行分類

機器學習要點(二) 資料處理相關

重取樣技術 1 隨機欠取樣 優點 它可以提公升執行時間 並且當訓練資料集很大時,可以通過減少樣本數量來解決儲存問題。缺點 它會丟棄對構建規則分類器很重要的有價值的潛在資訊。被隨機欠取樣選取的樣本可能具有偏差。它不能準確代表大多數。從而在實際的測試資料集上得到不精確的結果。2 隨機過取樣 優點 與欠取...

資料處理 流資料處理利器

流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...

爬蟲 資料處理 pandas資料處理

使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...