基於pandas的資料分析之資料型別轉化踩坑總結

環境依賴：

mysql 5.7.17

python 2.7

mysql-python 1.2.5

pandas 0.18.1

資料型別轉化從以下兩個方面討論並分析：

由於資料缺失導致dataframe中int轉float型

由於數值型別字串導致從csv載入到dataframe時string轉numeric

基於python將mysql的表結構轉化為pandas的dataframe時，出現如下問題：

a）age列原本為int型別，但是在dataframe中轉化為float型別

b）對於sql中的none值在dataframe裡有多種表示方式。

資料來源資訊如下所示：

在dataframe中展示效果如下：

通過查閱官方文件得知，pandas在處理缺失值上，擁有乙個自己的處理及轉化邏輯；具體規則描述如下圖所示：

不難看出，當int型資料列包含空值時，會將該列轉化為float型別；個人理解(未必一定準確)：在pandas中，對於數值型別的空值，是統一用nan來表示的；nan在pandas中是一種特殊的float值，而非大家所熟悉的空物件；因此對於int型別的空值，因無法表示相應的空值，所以需要先做資料型別的轉化，然後用nan來表示缺失值。

通過這個例子，在理解numeric型別轉化原因的同時，希望能提高對資料異常的情況的警惕性和敏感度；理解業務，實現邏輯的同時，準確有效的進行資料降噪，從而提公升資料的有效性和真實性。

空值分別在mysql、python、pandas上的表現形式如下表所示：

/字串空值

空字串數值型別空值

mysql

null

」null

python

none

」none

pandas

none

」nan

由於字串空值和空字串這兩種情況在寫到csv的效果完全一致，從而導致在讀取資料時，無法做區分。如果後續業務明確要求區分處理這兩種情況，則會因為一次讀寫檔案的操作導致資料失真。基於此原因，建議在業務線內，規定乙個唯一標識的字串來代表none值(參考數倉建設)，從而有效區分字串空值和空字串的區別。

若某一列為數值字串時，通過pd.read_csv方法轉化為dataframe後，該列會被識別為numeric型別(eg: int, float)，而非原本的string型別。eg：將前文中mysql資料表中的***列和password列的內容修改為純數值，資料集及各列對應的資料型別分別如下圖所示：

並將該表中的資料先寫到本地csv檔案；然後通過pd.read_csv讀取檔案資料時發現***列被識別為int型別，password列被識別為float型別。資料展示效果及各列對應的資料型別分別如下圖所示：

所以在基於pandas操作csv檔案時，需要特別注意這種情況。如果在後續的分析中，需要保留原始資料集中的資料型別，則在讀取csv檔案時，需要顯示的指定dtype引數，從而保證資料型別的前後統一。

通過上述案例分析，希望操作csv檔案時注意空字串和字串空值在具體專案中的實際意義，以免造成不必要的麻煩；以及潛在的資料型別轉化隱患。

基於pandas的資料分析之資料型別轉化踩坑總結

Python資料分析之pandas讀取資料

資料分析之Pandas

資料分析之pandas

基於pandas的資料分析之資料型別轉化踩坑總結

Python資料分析之pandas讀取資料

資料分析之Pandas

資料分析之pandas

相關推薦