python庫 pandas 文字檔案讀取

.read_table() / read_csv()

filepath_or_buffer

檔案路徑

sep=』\t』

分隔符. 設定為n, 將嘗試自動確定

delimiter=n

sep的備用引數名

header='infer'

int用作列名稱的行號

ints

若傳入列表則表示這幾行都將作為列標籤

none

檔案中不包含標題行

'infer'

header = 0 if name is none else none

names=n

作為列標籤的列表

index_col=n

int用作行標籤的列

序列使用multiindex

f強制使用第一列作為索引

usecols=n

list_like: 要讀取的列, 位置或列標籤

squeeze=f

若果解析的資料只有一列, 則返回乙個series

prefix=n

在沒有標題時新增到列號的字首，例如'x'代表x0，x1，...

mangle_dupe_cols=t

重複的列將被指定為」x」, "x.1"...「x.n」. 傳入f將導致覆蓋資料

dtype=n

資料或每列資料型別. 例如:

engine=n

選擇解析器引擎. 『c』引擎速度更快，而』python』引擎目前更加完善

converters=n

dict . 轉換某些列中的值的函式, 鍵是整數或列標籤

true_values=n

list. 要考慮的值為true ???

false_values=n

list. 要考慮的值為false ???

skipinitialspace=f

跳過分隔符後的空白符

skiprows=n

要跳過的行號(list)或要跳過的行數(integer)

nrows=n

要讀取的檔案的行數. 適用於讀取大檔案的片段

na_values=n

識別為nan的字串或字串列表

keep_default_na=t

t設定的na_values追加到預設識別為nan值的列表, 否則將覆蓋預設

na_filter=t

是否檢測na值, 在確定沒有na的資料中設定為f可提高讀取大檔案的效能

verbose=f

是否顯示每一列中的na值的數量

skip_blank_lines=t

如果為t, 則跳過空白行, 而不是解釋為nan值

parse_dates=f

true: 嘗試將索引解析成日期

[位置或標籤]: 嘗試將這些列解析成日期

[[位置或標籤]]: 合併這些列並嘗試將其解析成日期

: 合併指定列指定標籤為name, 並嘗試將其解析為日期

infer_datetime_format=f

true: 嘗試加快parse_dates解析速度

keep_date_col=f

true: 若parse_dates解析成的日期列沒有占用原資料標籤, 則保留原始列

date_parser=n

用於將字串轉換為datetime的函式, 預設dateutil.parser.parser

dayfirst=f

true: 識別歐洲格式日期(日-月-年), 預設將識別為(月-日-年)

iterator=f

生成迭代器, 通過迭代或get_chunk()獲取資料塊(預設全部)

chunksize=n

int: 生成迭代器, 通過迭代或get_chunk()每次獲取此引數指定大小的資料塊

compression='infer'

用於磁碟上資料的即時解壓縮。如果「infer」，則使用gzip，bz2，zip或xz，如果filepath_or_buffer是分別以「.gz」，「.bz2」，「.zip」或「xz」結尾的字串，否則不進行解壓縮。如果使用'zip'，zip檔案必須只包含乙個要讀入的資料檔案. 設定為無, 無解壓縮

thousands=n

str: 千位分隔符, 預設無

decimal='.'

可識別為小數點的字元

lineterminator=n

str(length 1) 將檔案拆分成行的字元, 只有c直譯器有效

quotechar='"'

str(length 1) 用於表示帶引號專案的開始和結束的字元. 引號項可以包含分隔符, 它將被忽略

quoting=0

3: quotechar引數將不會生效

escapechar=n

???comment=n

str(length 1) 以此字元開頭的行將被當做空白行處理

encoding=n

編碼dialect=n

???tupleize_cols=f

當選擇多行作為列標籤時, 預設生成多級索引, 若設定為true, 則會把多個索引組成元組作為單個標籤

error_bad_lines=t

false: 異常行將被刪除

warn_bad_lines=t

error_bad_lines為false, 且此引數為true, 將會輸出每乙個error行的警告

skipfooter=0

跳過檔案底部的行數（不支援engine ='c'）

skip_footer=0

棄用, 使用skipfooter引數

doublequote=t

將連續多個quotechar指定的字元當做乙個來識別

delim_whitespace=f

指定是否將空白用作分隔符, 相當於設定sep='\s+'. 若設為true, 則不應為delimiter引數傳入任何內容(支援python直譯器)

compact_ints=f

將被刪除

use_unsigned=f

將被刪除

low_memory=t

???buffer_lines=n

將被刪除

memory_map=f

如果為filepath_or_buffer提供了檔案路徑，則將檔案物件直接對映到記憶體上，並從中直接訪問資料。使用此選項可以提高效能，因為不再有任何i / o開銷

float_precision=n

???.read_fwf()

讀取固定寬度格式的檔案

.read_msgpack()

???

pandas 讀入文字

我們使用python做資料分析的時候，很多情況需要我們從本地讀入，在這裡我們主要總結如何使用pandas讀入文字 import pandas as pd 讀入csv，設定header引數，讀取檔案的時候沒有標題 data pd.read csv x,header none names設定列名 dat...

Pandas讀取文字

pandas在處理千萬行級別的資料中有非常高的實用價值，通過將文字資料讀取載入到記憶體中，在利用pandas進行資料處理運算，效率非常高。excel表適合處理幾十萬行級別的資料，pandas則適用於處理千萬級別的資料一般情況下千萬級別的資料動輒在幾個gb以上，因此建議電腦記憶體在16gb以上為佳。...

python庫 Pandas學習筆記

food info pandas.read csv 檔名讀取csv檔案 print type food info 顯示food info的型別，csv檔案的型別是dataframe print food info.dtypes 顯示每一列的特徵儲存的是什麼型別，可以看到在csv檔案中，str型別被...

python庫 pandas 文字檔案讀取

pandas 讀入文字

Pandas讀取文字

python庫 Pandas學習筆記

相關推薦