使用Pandas處理大型資料節省90 記憶體的建議

簡要總結一下這篇文章的中心思想：合理設計讀取的資料型別。下圖是從原文中擷取出來的，可以看到pandas中不同資料型別所占用的記憶體。

作者建議，在不影響資料準確的情況下，將float64轉換為float32，將int64轉換為int32，對於沒有負數的整數列轉換為uint型別。

然而，能夠比較顯著減少記憶體占用的是將object轉換為category。一般來說，pandas將字串儲存為object型別，字串的占用記憶體較大。如果將字串轉換為對應的整數，那麼就會極大的減少記憶體占用。例如，假設有一列資料是week_day，內容為中文字元「星期一，星期二……星期日」，轉換為category之後week_day變為1-7的整數，其中星期一—1，星期二—2,……星期日—7。這樣字串就轉換為整數，pandas也會將對應關係儲存起來。作者也同時建議，object轉換為category適用於類別比較少的情況，如果一列資料的每一行字串都是唯一的，或者大部分是唯一的，那麼就不適合轉換，轉換之後的記憶體占用甚至可能大於轉換之前。因為pandas不僅儲存資料，還儲存對應關係，如果一列資料中字串都是唯一的，那麼實際上並沒有節省任何記憶體。

從作者的整體思路可以看出，pandas節省記憶體和資料庫節省硬碟差不多，都始於合理的資料型別設計。其實無論是資料探勘還是機器學習，所有的字串型別都會轉換為int或者float，這一步處理幾乎是必然的。如果僅僅做資料分析或者資料探索，那麼這種轉換並不是一定要做的，但好處是會大大加速程式執行的速度，所以如果你的資料量很大或者計算機效能不是很強的話，做一些轉換還是很有必要的。

使用Pandas處理大型資料節省90 記憶體的建議

pandas處理資料

使用pandas做資料處理

Python資料處理 Pandas模組使用（三）

使用Pandas處理大型資料 節省90 記憶體的建議

pandas處理資料

使用pandas做資料處理

Python資料處理 Pandas模組使用（三）

相關推薦

使用Pandas處理大型資料節省90 記憶體的建議