importpandasaspdimportmatplotlib.pyplotasplt
dir ='./'train = pd.read_table(dir +'train_20171215.txt',engine='python')
#print(train.info()) #檢視欄位的屬性
print(train['day_of_week'
].unique()) #檢視欄位有哪些不重複的值
plt.boxplot(train['cnt']) #畫箱型圖plt.show()
#檢視資料分布importseabornassns
color = sns.color_palette()
sns.set_style('darkgrid')
fromscipyimportstats
fromscipy.statsimportnorm, skew
sns.distplot(train['cnt'], fit=norm)
plt.show()
#找出與目標最相關的變數xplt.plot(train['date'],train['cnt'])
plt.show()
print(train['cnt'].describe()) #cnt欄位的具體資訊
#**結果以mean square error作為評判標準,#可以以統計資料去確定一下,這些統計資料,在評測函式的指標
fromsklearn.metricsimportmean_squared_error
train['25%'] = 221
train['50%'] = 351
train['75%'] = 496
train['median'] = train['cnt'].median()
train['mean'] = train['cnt'].mean()
print(mean_squared_error(train['cnt'],train['25%']))
print(mean_squared_error(train['cnt'],train['50%']))
print(mean_squared_error(train['cnt'],train['75%']))
print(mean_squared_error(train['cnt'],train['median']))
print(mean_squared_error(train['cnt'],train['mean']))
#開始對星期資訊統計monday = train[train['day_of_week']==7]
plt.plot(range(len(monday)),monday['cnt'])
plt.show()
#簡單分析一下按照星期的評測分數res = train.groupby(['day_of_week'],as_index=false).cnt.mean()
xx = train.merge(res,on=['day_of_week'])
print(xx.head())
print(mean_squared_error(xx['cnt_x'],xx['cnt_y']))
# 因為第一賽季只是**與時間相關的cnt的數量# 所以可以對資料以date和day_of_week進行資料合併
train = train.groupby(['date','day_of_week'],as_index=false).cnt.sum()
print(train)
plt.plot(train['day_of_week'],train['cnt'],'*')
plt.show()
結構化 半結構化和非結構化資料
在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis,mangodb rdbms關聯式資料庫 oracle,mysql等 還有一些其它的資料庫如hbase,在這些資料庫中,又會出現結構化資料,非結構化資料,半結構化資料,下面列出各種資料型別 結構化資料 ...
結構化 半結構化和非結構化資料
在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis。mangodb rdbms關聯式資料庫 oracle,mysql等 另一些其他的資料庫如hbase,在這些資料庫中。又會出現結構化資料。非結構化資料。半結構化資料,以下列出各種資料型別 結構化資料 可...
結構化 半結構化和非結構化問題
結構化程度 是指對某一決策問題的決策過程 決策環境和規律,能否用明確的語言 數學的或邏輯學的 形式的或非形式的 定量的或定性的 給予說明或描述清晰程度或準確程度。按照決策問題的結構化程度不同把決策問題分成結構化問題 半結構化問題和非結構化問題三種型別。1 結構化決策問題 結構化決策問題相對比較簡單 ...