python資料探勘02 pandas基礎

一.pandas引入

from pandas import series,dataframe
import pandas as pd

二.pandas的資料結構

1.series

series是一種類似一維陣列的物件，他由一組資料（各種numpy資料型別）以及一組與之相關的資料標籤（即索引）組成。

obj = series([4,7,-5,3])
obj0 4
1 7
2 -5
3 3

左邊是索引，右邊是值。

可以通過series的values和index屬性獲取其陣列表示形式和索引物件。

in [1]: obj.values
out[1]: array([4,7,-5,3])
in[2]:obj.index
out[2]:int64index([0,1,2,3])

自建標記索引：

in[8]:obj2 = series([4,7,-5,3],index=['d','b','a','c']
out:d 4
b 7
a -5
d 3

可以通過索引取series中的單個值或一組值：

in: obj2['a']
out: -5
in: obj2[['c','a','d']]
out: 
c 3
a -s
d 4

運算

obj2[obj2>0]
obj2*2
np.exp(ob2)

通過python字典建立series:

sdata = 
obj3=series(sdata)

in:states = ['california','ohio','oregon','texas']
obj4=series(sdata,index=states)
out:
california nan
ohio 35000
oregon 16000
texas 71000

尋找缺失資料

pd.isnull(obj4)
pd.notnull(obj4)

obj4.isnull()

series物件本身及其索引都有乙個name屬性。

obj4.name = 'population'
obj4.index.name = 'state'

2.dataframe

**型資料結構，含有一組有序的列，每列可以是不同型別。

構建dataframe:

data = 
frame=dataframe(data)

frame['state']
frame.year

使用位置訪問：

frame.ix['three']

賦值

frame['debt']=16.5

python資料探勘面試位元組跳動資料探勘面試總結

1.資料探勘任務使用者常住城市 2.資料倉儲任務演出主藝人名標籤挖掘 3.mapreduce原理 4.mapreduce特別慢的原因 4.1 計算機效能 cpu 記憶體磁碟健康網路 4.2 i o操作優化資料傾斜 map reduce數設定不合理 reduce等待過久小檔案過多大量的不...

python資料分析與挖掘實戰資料探勘基礎

從大量資料包括文字中挖掘出隱含的未知的對決策有潛在價值的關係模式和趨勢，並用這些知識和規則建立用於決策支援的模型，提高性決策支援的方法工具和過程，就是資料探勘它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程，是統計學資料庫技術和人工智慧技術的綜合。1.定義挖...

python與資料探勘基礎

進行txt檔案資料讀取，資料為uci資料庫的氣病症病馬資料，資料見 data horsecolic.txt.資料有多行，每行有22個資料，前21個為馬的病症資料，最後乙個時該馬的標籤，判斷其患病與否。實驗的要求是將所有行的前21個資料儲存到乙個二維列表dataarr中，而標籤資料單獨儲存在乙個列...

python資料探勘02 pandas基礎

python資料探勘面試 位元組跳動資料探勘面試總結

python資料分析與挖掘實戰 資料探勘基礎

python與資料探勘基礎

相關推薦

python資料探勘面試位元組跳動資料探勘面試總結

python資料分析與挖掘實戰資料探勘基礎