python庫 pandas 文字檔案讀取

2022-08-29 07:24:13 字數 3253 閱讀 1736

.read_table() / read_csv()

filepath_or_buffer

檔案路徑

sep=』\t』

分隔符. 設定為n, 將嘗試自動確定

delimiter=n

sep的備用引數名

header='infer'

int用作列名稱的行號

ints

若傳入列表則表示這幾行都將作為列標籤

none

檔案中不包含標題行

'infer'

header = 0 if name is none else none

names=n

作為列標籤的列表

index_col=n

int用作行標籤的列

序列使用multiindex

f強制使用第一列作為索引

usecols=n

list_like: 要讀取的列, 位置或列標籤

squeeze=f

若果解析的資料只有一列, 則返回乙個series

prefix=n

在沒有標題時新增到列號的字首,例如'x'代表x0,x1,...

mangle_dupe_cols=t

重複的列將被指定為」x」, "x.1"...「x.n」. 傳入f將導致覆蓋資料

dtype=n

資料或每列資料型別. 例如:

engine=n

選擇解析器引擎. 『c』引擎速度更快,而』python』引擎目前更加完善

converters=n

dict . 轉換某些列中的值的函式, 鍵是整數或列標籤

true_values=n

list. 要考慮的值為true   ???

false_values=n

list. 要考慮的值為false   ???

skipinitialspace=f

跳過分隔符後的空白符

skiprows=n

要跳過的行號(list)或要跳過的行數(integer)

nrows=n

要讀取的檔案的行數. 適用於讀取大檔案的片段

na_values=n

識別為nan的字串或字串列表

keep_default_na=t

t設定的na_values追加到預設識別為nan值的列表, 否則將覆蓋預設

na_filter=t

是否檢測na值, 在確定沒有na的資料中設定為f可提高讀取大檔案的效能

verbose=f

是否顯示每一列中的na值的數量

skip_blank_lines=t

如果為t, 則跳過空白行, 而不是解釋為nan值

parse_dates=f

true: 嘗試將索引解析成日期

[位置或標籤]: 嘗試將這些列解析成日期

[[位置或標籤]]: 合併這些列並嘗試將其解析成日期

: 合併指定列指定標籤為name, 並嘗試將其解析為日期

infer_datetime_format=f

true: 嘗試加快parse_dates解析速度

keep_date_col=f

true: 若parse_dates解析成的日期列沒有占用原資料標籤, 則保留原始列

date_parser=n

用於將字串轉換為datetime的函式, 預設dateutil.parser.parser

dayfirst=f

true: 識別歐洲格式日期(日-月-年), 預設將識別為(月-日-年)

iterator=f

生成迭代器, 通過迭代或get_chunk()獲取資料塊(預設全部)

chunksize=n

int: 生成迭代器, 通過迭代或get_chunk()每次獲取此引數指定大小的資料塊

compression='infer'

用於磁碟上資料的即時解壓縮。如果「infer」,則使用gzip,bz2,zip或xz,如果filepath_or_buffer是分別以「.gz」, 「.bz2」, 「.zip」或「xz」結尾的字串,否則不進行解壓縮。如果使用'zip',zip檔案必須只包含乙個要讀入的資料檔案. 設定為無, 無解壓縮

thousands=n

str: 千位分隔符, 預設無

decimal='.'

可識別為小數點的字元

lineterminator=n

str(length 1) 將檔案拆分成行的字元, 只有c直譯器有效

quotechar='"'

str(length 1) 用於表示帶引號專案的開始和結束的字元. 引號項可以包含分隔符, 它將被忽略

quoting=0

3: quotechar引數將不會生效

escapechar=n

???comment=n

str(length 1) 以此字元開頭的行將被當做空白行處理

encoding=n

編碼dialect=n

???tupleize_cols=f

當選擇多行作為列標籤時, 預設生成多級索引, 若設定為true, 則會把多個索引組成元組作為單個標籤

error_bad_lines=t

false: 異常行將被刪除

warn_bad_lines=t

error_bad_lines為false, 且此引數為true, 將會輸出每乙個error行的警告

skipfooter=0

跳過檔案底部的行數(不支援engine ='c')

skip_footer=0

棄用, 使用skipfooter引數

doublequote=t

將連續多個quotechar指定的字元當做乙個來識別

delim_whitespace=f

指定是否將空白用作分隔符, 相當於設定sep='\s+'. 若設為true, 則不應為delimiter引數傳入任何內容(支援python直譯器)

compact_ints=f

將被刪除

use_unsigned=f

將被刪除

low_memory=t

???buffer_lines=n

將被刪除

memory_map=f

如果為filepath_or_buffer提供了檔案路徑,則將檔案物件直接對映到記憶體上,並從中直接訪問資料。使用此選項可以提高效能,因為不再有任何i / o開銷

float_precision=n

???.read_fwf()

讀取固定寬度格式的檔案

.read_msgpack()

???

pandas 讀入文字

我們使用python做資料分析的時候,很多情況需要我們從本地讀入,在這裡我們主要總結如何使用pandas讀入文字 import pandas as pd 讀入csv,設定header引數,讀取檔案的時候沒有標題 data pd.read csv x,header none names設定列名 dat...

Pandas讀取文字

pandas在處理千萬行級別的資料中有非常高的實用價值,通過將文字資料讀取載入到記憶體中,在利用pandas進行資料處理運算,效率非常高。excel表適合處理幾十萬行級別的資料,pandas則適用於處理千萬級別的資料 一般情況下千萬級別的資料動輒在幾個gb以上,因此建議電腦記憶體在16gb以上為佳。...

python庫 Pandas學習筆記

food info pandas.read csv 檔名 讀取csv檔案 print type food info 顯示food info的型別,csv檔案的型別是dataframe print food info.dtypes 顯示每一列的特徵儲存的是什麼型別,可以看到在csv檔案中,str型別被...