Python資料探勘 第3章 資料探索

2022-07-13 13:39:11 字數 2674 閱讀 7874

離群點(異常值)定義為小於ql-1.5iqr或大於qu+1.5iqr

import

pandas as pd

catering_sale = '

../data/catering_sale.xls'#

餐飲資料

data = pd.read_excel(catering_sale, index_col = u'

日期') #

讀取資料,指定「日期」列為索引列

import matplotlib.pyplot as plt #

匯入影象庫

#plt.rcparams['font.sans-serif'] = ['simhei'] #用來正常顯示中文標籤

#plt.rcparams['axes.unicode_minus'] = false #用來正常顯示負號

plt.figure()

#建立影象

p = data.boxplot(return_type='

dict

') #

畫箱線圖,直接使用dataframe的方法

x = p['

fliers

'][0].get_xdata() #

'fliers'即為異常值的標籤

y = p['

fliers

'][0].get_ydata()

y.sort()

#從小到大排序,該方法直接改變原物件

#用annotate新增注釋

#其中有些相近的點,註解會出現重疊,難以看清,需要一些技巧來控制。

#以下引數都是經過除錯的,需要具體問題具體除錯。

for i in

range(len(x)):

if i>0:

plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))

else

: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show()

#展示箱線圖

匯入影象庫

dish_profit = '

data/catering_dish_profit.xls'#

餐飲菜品盈利資料

data = pd.read_excel(dish_profit, index_col = u'

菜品名'

)data = data[u'盈利'

].copy()

data.sort_values(ascending =false)

plt.figure()

data.plot(kind='

bar'

)plt.ylabel(u

'盈利(元)')

p = 1.0*data.cumsum()/data.sum()

p.plot(color = '

r', secondary_y = true, style = '

-o',linewidth = 2)

plt.annotate(format(p[6], '

.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="

->

", connectionstyle="

arc3,rad=.2

")) #

新增注釋,即85%處的標記。這裡包括了指定箭頭樣式。

plt.ylabel(u'

盈利(比例)')

匯入資料

求相關係數的三種方式

資料探勘 第2章 資料

二 資料質量 三 資料預處理 四 相似性和相異性度量 1 基本概念 資料 資料集可以看做資料物件的集合。資料物件有時也叫做記錄 點 向量 模式 案例 樣本 觀測或實體。資料物件用一組刻畫物件基本特性的屬性描述。屬性有時也叫做變數 特性 字段 特徵或維。通常,資料集是乙個檔案,其中物件是檔案的記錄,而...

《資料探勘 概念與技術》 第3章 資料預處理

資料要得以應用,必須是高質量的。高質量包括以下6點 1.準確性 2.完整性 3.一致性 4.時效性 5.可信性 6.可解釋性 資料清理 消除噪音,糾正不一致。資料整合 不同資料來源合併乙個,資料倉儲。資料規約 聚集和刪除冗餘,降低資料規模。資料變換 資料壓縮 對映 較小的區間。造成資料不準確 不完整...

(第3章)資料

c語言只有4種基本資料型別 整型,浮點型,指標,聚合型別 eg 陣列和結構等 其他的型別都是從這4種基本資料型別的某種組合派生而來的。1 整型 型別 最小範圍 其他char 0到127 signed char 127到127 unsigned char 0到255 short int 32767到3...