資料**
載入資料
pandas提供了一些將**型資料讀取為dataframe物件的函式,其中用的比較多的是read_csv和read_table,引數說明如下:
引數說明
path
表示檔案位置、url、檔案型物件的字串
sep或delimiter
用於將行中的各欄位進行拆分的字串或正規表示式
head
用作列名的行號
index_col
用作行索引的列編號或列名
skiprows
需要跳過的行號列表(從0開始)
na_value
一組使用者替換的值
converters
由列號/列名跟函式之間的對映關係組成的字典
chunksize
檔案快的大小
舉例:
in [2]: result = pd.read_table('data.txt',sep = '\s+')
in [3]: result
out[3]:
sec-debit hkd0002481145000001320170227securities buy on 23feb2017
010011142009679 hkd00002192568083002000 nan nan nan
120011142009679 hkd00004154719083002000 nan nan nan
230011142005538 hkd00000210215083002300 nan nan nan
340011142005538 hkd00000140211083002300 nan nan nan
延伸:
dataframe寫檔案:data.to_csv(『*.csv』)
series寫檔案:data.to_csv(『*.csv』)
series讀檔案:series.from_csv(『*.csv』)
隨機取樣
利用numpy.random.permutation函式可以實現對series和dataframe的列隨機重排序工作
in [18]: df = dataframe(np.arange(20).reshape(5,4))
in [19]: df
out[19]:
0123001
2314
5672
891011312
1314154
1617
1819
in [20]: sample = np.random.permutation(5)
in [21]: sample
out[21]: array([0, 1, 4, 2, 3])
in [22]: df.take(sample)
out[22]:
0123001
2314
5674
1617
181928
910113
1213
1415
in [25]: df.take(np.random.permutation(5)[:3])
out[25]:
0123289
1011416
1718193
1213
1415
學習Python大資料處理模組Pandas
適合初學入門 本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。in 3 import pandas as pd in 4 import random i...
Python 資料處理
將檔案切分,存入列表 strip split with open james.txt as jaf data jaf.readline james data.strip split 資料檔案為 2 34,3 21,2.34,2.45,3.01,2 01,2 01,3 10,2 22 print ja...
Python 資料處理
本場 chat 為 python 資料處理課程,包括 python 基礎知識 極簡教程 提公升 python 執行效率的方法 爬蟲簡介 scrapy selenium 自動化測試框架 簡易分布式 redis 分詞程式設計 jieba 資料儲存 本地資料上傳 hive 通過本場 chat 讀者可學到以...