學習Python大資料處理模組Pandas

2021-06-28 16:54:51 字數 2842 閱讀 8398

適合初學入門

本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。

通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。

in [3]: import pandas as pd

in [4]: import random

in [5]: num = random.sample(xrange(10000, 1000000), 5)

in [6]: num

out[6]: [244937, 132008, 278446, 613409, 799201]

in [8]: names = "hello the cruel world en".split()

in [9]: names

out[9]: ['hello', 'the', 'cruel', 'world', 'en']

in [10]: rec = zip(names, num)

in [15]: data = pd.dataframe(rec, columns = [u"姓名",u"業績" ])

in [16]: data

out[16]:

姓名 業績

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

dataframe方法函式的第乙個引數是資料來源,第二個引數columns是輸出資料表的表頭,或者說是**的欄位名。

windows平台上的編碼問題,我們可以先做個簡單處理,是ipython-notebook支援utf8.

import sys

reload(sys)

sys.setdefaultencoding("utf8")

接下來可以資料匯出了。

in [31]: data

out[31]:

姓名 業績

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

#在ipython-note裡後加問號可查幫助,q退出幫助

in [32]: data.to_csv?

in [33]: data.to_csv("c:\\out.csv", index = true, header = [u"雇員", u"銷售業績"])

將data匯出到out.csv檔案裡,index引數是指是否有主索引,header如果不指定則是以data裡columns為頭,如果指定則是以後邊列表裡的字串為表頭,但要注意的是header後的字串列表的個數要和data裡的columns欄位個數相同。

可到c盤用notepad++開啟out.csv看看。

in [43]: data

out[43]:

姓名 業績

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

#排序並取前三名

in [46]: sorted = data.sort([u"業績"], ascending=false)

sorted.head(3)

out[46]:

姓名 業績

#使ipython-notebook支援matplotlib繪圖

%matplotlib inline

in [74]: df = data

#繪圖df[u"業績"].plot()

maxvalue = df[u"業績"].max()

maxname = df[u"姓名"][df[u"業績"] == df[u"業績"].max()].values

text = str(maxvalue) + " - " + maxname

#給圖新增文字標註

如果注釋掉plt.annotate這行,結果如下所示:

python 大資料處理小結

1.shop min shop.drop category id longitude latitude price axis 1 pandas中刪除多個列 2.mall shop min.drop duplicates subset mall id pandas中將某一列去重 3.python寫檔案...

大資料處理

大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...

Python資料處理 Pandas模組使用(三)

資料 載入資料 pandas提供了一些將 型資料讀取為dataframe物件的函式,其中用的比較多的是read csv和read table,引數說明如下 引數說明 path 表示檔案位置 url 檔案型物件的字串 sep或delimiter 用於將行中的各欄位進行拆分的字串或正規表示式 head ...