Python資料處理 Pandas模組使用(三)

2021-08-20 10:12:01 字數 1788 閱讀 9770

資料**

載入資料

pandas提供了一些將**型資料讀取為dataframe物件的函式,其中用的比較多的是read_csv和read_table,引數說明如下:

引數說明

path

表示檔案位置、url、檔案型物件的字串

sep或delimiter

用於將行中的各欄位進行拆分的字串或正規表示式

head

用作列名的行號

index_col

用作行索引的列編號或列名

skiprows

需要跳過的行號列表(從0開始)

na_value

一組使用者替換的值

converters

由列號/列名跟函式之間的對映關係組成的字典

chunksize

檔案快的大小

舉例:

in [2]:  result = pd.read_table('data.txt',sep = '\s+')

in [3]: result

out[3]:

sec-debit hkd0002481145000001320170227securities buy on 23feb2017

010011142009679 hkd00002192568083002000 nan nan nan

120011142009679 hkd00004154719083002000 nan nan nan

230011142005538 hkd00000210215083002300 nan nan nan

340011142005538 hkd00000140211083002300 nan nan nan

延伸

dataframe寫檔案:data.to_csv(『*.csv』)

series寫檔案:data.to_csv(『*.csv』)

series讀檔案:series.from_csv(『*.csv』)

隨機取樣

利用numpy.random.permutation函式可以實現對series和dataframe的列隨機重排序工作

in [18]: df = dataframe(np.arange(20).reshape(5,4))

in [19]: df

out[19]:

0123001

2314

5672

891011312

1314154

1617

1819

in [20]: sample = np.random.permutation(5)

in [21]: sample

out[21]: array([0, 1, 4, 2, 3])

in [22]: df.take(sample)

out[22]:

0123001

2314

5674

1617

181928

910113

1213

1415

in [25]: df.take(np.random.permutation(5)[:3])

out[25]:

0123289

1011416

1718193

1213

1415

學習Python大資料處理模組Pandas

適合初學入門 本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。in 3 import pandas as pd in 4 import random i...

Python 資料處理

將檔案切分,存入列表 strip split with open james.txt as jaf data jaf.readline james data.strip split 資料檔案為 2 34,3 21,2.34,2.45,3.01,2 01,2 01,3 10,2 22 print ja...

Python 資料處理

本場 chat 為 python 資料處理課程,包括 python 基礎知識 極簡教程 提公升 python 執行效率的方法 爬蟲簡介 scrapy selenium 自動化測試框架 簡易分布式 redis 分詞程式設計 jieba 資料儲存 本地資料上傳 hive 通過本場 chat 讀者可學到以...