python 讀取結構化的txt

2021-08-15 07:18:47 字數 2866 閱讀 9028

importpandasaspd

importmatplotlib.pyplotasplt

dir ='./'train = pd.read_table(dir +'train_20171215.txt',engine='python')

#print(train.info()) #檢視欄位的屬性

print(train[

'day_of_week'

].unique()) #檢視欄位有哪些不重複的值

plt.boxplot(train['cnt'])  #畫箱型圖

plt.show()

#檢視資料分布

importseabornassns

color = sns.color_palette()

sns.set_style('darkgrid')

fromscipyimportstats

fromscipy.statsimportnorm, skew

sns.distplot(train['cnt'], fit=norm)

plt.show()

#找出與目標最相關的變數x

plt.plot(train['date'],train['cnt'])

plt.show()

print(train['cnt'].describe()) #cnt欄位的具體資訊

#**結果以mean square error作為評判標準,

#可以以統計資料去確定一下,這些統計資料,在評測函式的指標

fromsklearn.metricsimportmean_squared_error

train['25%'] = 221

train['50%'] = 351

train['75%'] = 496

train['median'] = train['cnt'].median()

train['mean'] = train['cnt'].mean()

print(mean_squared_error(train['cnt'],train['25%']))

print(mean_squared_error(train['cnt'],train['50%']))

print(mean_squared_error(train['cnt'],train['75%']))

print(mean_squared_error(train['cnt'],train['median']))

print(mean_squared_error(train['cnt'],train['mean']))

#開始對星期資訊統計

monday = train[train['day_of_week']==7]

plt.plot(range(len(monday)),monday['cnt'])

plt.show()

#簡單分析一下按照星期的評測分數

res = train.groupby(['day_of_week'],as_index=false).cnt.mean()

xx = train.merge(res,on=['day_of_week'])

print(xx.head())

print(mean_squared_error(xx['cnt_x'],xx['cnt_y']))

# 因為第一賽季只是**與時間相關的cnt的數量

# 所以可以對資料以date和day_of_week進行資料合併

train = train.groupby(['date','day_of_week'],as_index=false).cnt.sum()

print(train)

plt.plot(train['day_of_week'],train['cnt'],'*')

plt.show()

結構化 半結構化和非結構化資料

在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis,mangodb rdbms關聯式資料庫 oracle,mysql等 還有一些其它的資料庫如hbase,在這些資料庫中,又會出現結構化資料,非結構化資料,半結構化資料,下面列出各種資料型別 結構化資料 ...

結構化 半結構化和非結構化資料

在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis。mangodb rdbms關聯式資料庫 oracle,mysql等 另一些其他的資料庫如hbase,在這些資料庫中。又會出現結構化資料。非結構化資料。半結構化資料,以下列出各種資料型別 結構化資料 可...

結構化 半結構化和非結構化問題

結構化程度 是指對某一決策問題的決策過程 決策環境和規律,能否用明確的語言 數學的或邏輯學的 形式的或非形式的 定量的或定性的 給予說明或描述清晰程度或準確程度。按照決策問題的結構化程度不同把決策問題分成結構化問題 半結構化問題和非結構化問題三種型別。1 結構化決策問題 結構化決策問題相對比較簡單 ...