關於DataFrame的文字資料匯入

dataframe確實使用方便，但是如果每次匯入資料都需要我們自己手動實現未免太麻煩了些，以下就介紹dataframe對不同格式檔案的匯入

本章僅僅介紹txt或文字檔案

name pop eco hu

c 13 2 none

a 2 1 none

最簡單的匯入方式：

import pandas as pd
data=pd.read_table('test.txt',sep='\t')
print data
>>> name pop eco hu
0 c 13 2 none
1 a 2 1 none

但是當沒有標題時，應加上header=none欄位

data=pd.read_table('test.txt',sep='\t',header=none)

當資料的分割方式很混亂時，dataframe也能相當好的處理此類文字，只要匯入正確的正規表示式就可

如文字格式如下：（|，空格，逗號都是分隔符）

a|13,2 no

c 2,1 no

**如下：

data=pd.read_table('test2',sep='[|,\s,\t,\,]+',header=none)
print data
>>> 0 1 2 3
0 a 13 2 no
1 c 2 1 no

有時候，沒有頭部描述，但我們希望給它乙個描述作為每一列的index

name=['state','pop','eco']
data=pd.read_table('test2',names=name,sep='[|,\s,\t,\,]+',header=none)
print data
>>> state  pop eco
a     13    2  no
c      2    1  no

有時候，我們想要吧某一列作為索引，應加引數index_col=『』，但是不知為何本人自己實踐時出錯，待以後改正

有時候，我們在文字中用某些特殊符號表示缺失，可以進行如下轉換：

from pandas.parser import na_values
name=['state','pop','eco']
data=pd.read_table('test2',names=name,sep='[|,\s,\t,\,]+',header=none,na_values='no')
print data
state pop eco
a 13 2 nan
c 2 1 nan

處理完畢後，有時候想以某種形式寫回去，如下：

data.to_csv('test.txt', sep='*')

DataFrame中關於object資料型別的說明

1 構造乙個dataframe 圖中，我們構造了乙個dataframe，這個dataframe有2列，第一列全部都是數值型別，第二列中既有數值型別又有布林型別。對於col1列，由於都是同一種資料型別，系統能夠辨認出來，這是一種int數值型別 int64是一種預設的資料型別對於col2列，由於這一列...

入力文字數

入力文字數 string 入力文字 maxlength 入力文字最大數 function checklen string,maxlength var a 0 for i 0 i string.length i return a maxlength 入力文字數半形 string 入力文字 ...

pandas文字資料

文字資料 string型別的性質 string與object的區別字元訪問方法 string accessor methods，如str.count 會返回相應資料的nullable型別，而object會隨著缺失值的存在而改變返回型別某些series 法不能在string上使如 series....

關於DataFrame的文字資料匯入

DataFrame中關於object資料型別的說明

入力 文字數

pandas文字資料

相關推薦

入力文字數