對資料整體清洗完整版

2021-09-26 08:39:39 字數 1446 閱讀 7412

資料形式:需要計算同一國家下的資料量,合併所有國家為一列,並計算乙個內購買量。

三個資料集都是以下的形式:

步驟:1:合併多列為一列,create_time 不變

2:三個檔案合併為乙個檔案 按時間,國家 分組,合併重複項。

3:看似簡單,其實三個csv除了國家之外,其他的都不一致。三個統計的維度也不是一樣的

附**:

def all_any():

# cnews_area_innerpurchases

'jp', 'tw', 'ua', 'hk',

'uk', 'cn'],

var_name='country', value_name='pay_innerpurchases')

'jp', 'tw', 'ua', 'hk',

'uk', 'cn'],

var_name='country', value_name='pay_purchases')

'jp', 'tw', 'ua', 'hk',

'uk', 'cn'],

var_name='country', value_name='pay_user')

#合併print(df_merge)

df_merge.to_csv('c://project//shuju//new_area//df_merge.csv')

#增加索引值

"""

"""

"""

count_dates = list(country_x_data['create_time'])

pay_users = list(data_all_p['pay_user'])

purchases_countrys = list(country_x_data['country_x'])

user_countrys = list(data_all_p['country_y'])

pay_purchasess = list(data_all_p['pay_purchases'])

innerpurchases_countrys = list(data_all_p['country'])

#data_time = pd.merge(data_all_p['country_x'], data_all_p['country_y'], how='outer', left_on='create_time', right_on='create_time')

#print(data_time)

type = '1'

"""

資料探勘導論 完整版

一 分類演算法 knn神經網路 支援向量機 適用於高維資料 決策樹gini係數 熵係數二 聚類演算法 k 均值 基於原型,劃分型別 不適用密度差別大,形狀差異大 dbscan 基於密度 三 關聯方法 apriori 剪枝支援度 置信度fr growth 四 組合方法 bagging 原理 有放回抽樣...

完整版websocket帶資料庫

use swoole coroutine as co class swoolechat n this ws push request fd,hello,welcome n 監聽websocket收到資訊 this ws on message function ws,frame n self onme...

《資料探勘(完整版)》筆記 最近鄰分類器

決策樹和基於規則的分類器是積極學習方法的例子,因為如果訓練資料可用,衙門就開始學習從輸入屬性到類標號的對映模型。與之相反的策略是推遲對訓練資料的建模,知道需要分類測試樣例時再進行,採用這種策略的技術被稱為消極學習方法 消極學習方法的乙個例子是rote分類器,它記住整個訓練資料,僅當測試例項的屬性和某...