關於DataFrame的文字資料匯入

2021-07-01 19:09:48 字數 1609 閱讀 8315

dataframe確實使用方便,但是如果每次匯入資料都需要我們自己手動實現未免太麻煩了些,以下就介紹dataframe對不同格式檔案的匯入

本章僅僅介紹txt或文字檔案

name    pop eco hu

c   13  2   none

a   2   1   none

最簡單的匯入方式:

import pandas as pd

data=pd.read_table('test.txt',sep='\t')

print data

>>> name pop eco hu

0 c 13 2 none

1 a 2 1 none

但是當沒有標題時,應加上header=none欄位

data=pd.read_table('test.txt',sep='\t',header=none)

當資料的分割方式很混亂時,dataframe也能相當好的處理此類文字,只要匯入正確的正規表示式就可

如文字格式如下:(|,空格,逗號都是分隔符)

a|13,2  no

c                            2,1   no

**如下:

data=pd.read_table('test2',sep='[|,\s,\t,\,]+',header=none)

print data

>>> 0 1 2 3

0 a 13 2 no

1 c 2 1 no

有時候,沒有頭部描述,但我們希望給它乙個描述作為每一列的index

name=['state','pop','eco']

data=pd.read_table('test2',names=name,sep='[|,\s,\t,\,]+',header=none)

print data

>>> state  pop eco

a     13    2  no

c      2    1  no

有時候,我們想要吧某一列作為索引,應加引數index_col=『』,但是不知為何本人自己實踐時出錯,待以後改正

有時候,我們在文字中用某些特殊符號表示缺失,可以進行如下轉換:

from pandas.parser import na_values

name=['state','pop','eco']

data=pd.read_table('test2',names=name,sep='[|,\s,\t,\,]+',header=none,na_values='no')

print data

state pop eco

a 13 2 nan

c 2 1 nan

處理完畢後,有時候想以某種形式寫回去,如下:

data.to_csv('test.txt', sep='*')

DataFrame中關於object資料型別的說明

1 構造乙個dataframe 圖中,我們構造了乙個dataframe,這個dataframe有2列,第一列全部都是數值型別,第二列中既有數值型別又有布林型別。對於col1列,由於都是同一種資料型別,系統能夠辨認出來,這是一種int數值型別 int64是一種預設的資料型別 對於col2列,由於這一列...

入力 文字數

入力 文字數 string 入力 文字 maxlength 入力 文字最大數 function checklen string,maxlength var a 0 for i 0 i string.length i return a maxlength 入力 文字數 半形 string 入力 文字 ...

pandas文字資料

文字資料 string型別的性質 string與object的區別 字元訪問方法 string accessor methods,如str.count 會返回相應資料的nullable型別,而object會隨著缺失值的存在而改變返回型別 某些series 法不能在string上使 如 series....