Python資料處理 Pandas模組使用（三）

資料**

載入資料

pandas提供了一些將**型資料讀取為dataframe物件的函式，其中用的比較多的是read_csv和read_table，引數說明如下：

引數說明

path

表示檔案位置、url、檔案型物件的字串

sep或delimiter

用於將行中的各欄位進行拆分的字串或正規表示式

head

用作列名的行號

index_col

用作行索引的列編號或列名

skiprows

需要跳過的行號列表（從0開始）

na_value

一組使用者替換的值

converters

由列號/列名跟函式之間的對映關係組成的字典

chunksize

檔案快的大小

舉例：

in [2]:  result = pd.read_table('data.txt',sep = '\s+')
in [3]: result
out[3]:
sec-debit hkd0002481145000001320170227securities buy on 23feb2017
010011142009679 hkd00002192568083002000 nan nan nan
120011142009679 hkd00004154719083002000 nan nan nan
230011142005538 hkd00000210215083002300 nan nan nan
340011142005538 hkd00000140211083002300 nan nan nan

延伸：

dataframe寫檔案：data.to_csv(『*.csv』)

series寫檔案：data.to_csv(『*.csv』)

series讀檔案：series.from_csv(『*.csv』)

隨機取樣

利用numpy.random.permutation函式可以實現對series和dataframe的列隨機重排序工作

in [18]: df = dataframe(np.arange(20).reshape(5,4))
in [19]: df
out[19]:
0123001
2314
5672
891011312
1314154
1617
1819
in [20]: sample = np.random.permutation(5)
in [21]: sample
out[21]: array([0, 1, 4, 2, 3])
in [22]: df.take(sample)
out[22]:
0123001
2314
5674
1617
181928
910113
1213
1415
in [25]: df.take(np.random.permutation(5)[:3])
out[25]:
0123289
1011416
1718193
1213
1415

學習Python大資料處理模組Pandas

適合初學入門本節基本了解pandas裡的一些資料結構和模組的基本使用，初步了解pandas的提供的一些功能，學會基本使用。通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。in 3 import pandas as pd in 4 import random i...

Python 資料處理

將檔案切分，存入列表 strip split with open james.txt as jaf data jaf.readline james data.strip split 資料檔案為 2 34,3 21,2.34,2.45,3.01,2 01,2 01,3 10,2 22 print ja...

Python 資料處理

本場 chat 為 python 資料處理課程，包括 python 基礎知識極簡教程提公升 python 執行效率的方法爬蟲簡介 scrapy selenium 自動化測試框架簡易分布式 redis 分詞程式設計 jieba 資料儲存本地資料上傳 hive 通過本場 chat 讀者可學到以...

Python資料處理 Pandas模組使用（三）

學習Python大資料處理模組Pandas

Python 資料處理

Python 資料處理

相關推薦