一.pandas引入
from pandas import series,dataframe
import pandas as pd
二.pandas的資料結構
1.series
series是一種類似一維陣列的物件,他由一組資料(各種numpy資料型別)以及一組與之相關的資料標籤(即索引)組成。
obj = series([4,7,-5,3])
obj0 4
1 7
2 -5
3 3
左邊是索引,右邊是值。
可以通過series的values和index屬性獲取其陣列表示形式和索引物件。
in [1]: obj.values
out[1]: array([4,7,-5,3])
in[2]:obj.index
out[2]:int64index([0,1,2,3])
自建標記索引:
in[8]:obj2 = series([4,7,-5,3],index=['d','b','a','c']
out:d 4
b 7
a -5
d 3
可以通過索引取series中的單個值或一組值:
in: obj2['a']
out: -5
in: obj2[['c','a','d']]
out:
c 3
a -s
d 4
運算
obj2[obj2>0]
obj2*2
np.exp(ob2)
通過python字典建立series:
sdata =
obj3=series(sdata)
in:states = ['california','ohio','oregon','texas']
obj4=series(sdata,index=states)
out:
california nan
ohio 35000
oregon 16000
texas 71000
尋找缺失資料
pd.isnull(obj4)
pd.notnull(obj4)
obj4.isnull()
series物件本身及其索引都有乙個name屬性。
obj4.name = 'population'
obj4.index.name = 'state'
2.dataframe
**型資料結構,含有一組有序的列,每列可以是不同型別。
構建dataframe:
data =
frame=dataframe(data)
frame['state']
frame.year
使用位置訪問:
frame.ix['three']
賦值
frame['debt']=16.5
python資料探勘面試 位元組跳動資料探勘面試總結
1.資料探勘任務 使用者常住城市 2.資料倉儲任務 演出主藝人名標籤挖掘 3.mapreduce原理 4.mapreduce特別慢的原因 4.1 計算機效能 cpu 記憶體 磁碟健康 網路 4.2 i o操作優化 資料傾斜 map reduce數設定不合理 reduce等待過久 小檔案過多 大量的不...
python資料分析與挖掘實戰 資料探勘基礎
從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...
python與資料探勘基礎
進行txt檔案資料讀取,資料為uci資料庫的 氣病症 病馬資料,資料見 data horsecolic.txt.資料有多行,每行有22個資料,前21個為馬的病症資料,最後乙個時該馬的標籤,判斷其患病與否。實驗的要求是將所有行的前21個資料儲存到乙個二維列表dataarr中,而標籤資料單獨儲存在乙個列...