電影樣題的資料清洗

2021-08-09 02:11:47 字數 2356 閱讀 5916

# -*- coding: utf-8 -*-

#coding:utf-8

import numpy as np

import pandas as pd

import string

df20105 = pd.read_csv('fbr_d_n_b.csv', delimiter = ',' , names = ['date','film','boxofficereturn'])

df20105 = df20105

.dropna() #去掉nan資料

# print df20105

val20105 = df20105.values

# print val20105

lst00 =

for i in range(0,len(val20105)):

x = val20105[i][0] #請填入4位數字 取出日期

lx = x.

split('-')

df20105.index=lst00

# print df20105.index

df20105 = df20105.

drop(['date'], axis = 1) #刪除原來日期的那一列

# df20105.to_csv('a.csv',index='true',encoding='utf-8')

# print type(val20105)

# print df20105[(df20105.index ==' 20100523')&(df20105.boxofficereturn>10000)]

# print df20105[(df20105.index == ' 20100516') & (df20105.film == '讓子彈飛')]

# rs1=df20105['boxofficereturn'].

groupby([df20105.index,df20105['film']]).mean()

# print rs1

# df = df20105.mean(columns = 'boxofficereturn')

# print df

# '''

# print df20105.columns

# print df20105.describe

# print df20105

# '''

#df20105 = df20105.sort_index()

#print df20105

# print type(val20105)

# df = df20105[(df20105.index == 20100523)&(df20105["boxofficereturn"]>10000)]

# df = df20105[(df20105.boxofficereturn>10000)]

# df = df20105[(df20105.index == 20100516) & (df20105.film == '讓子彈飛')]

# print df

# 將日期轉換成週數

lsa=df20105.index

lsb=

lsyct=[0,31,28,31,30,31,30,31,31,30,31,30,31]

sumdays=0

t=0y=0

m=0d=0

for da in lsa:

y=string.atoi(da)/10000

m=string.atoi(da)/100%100

d=string.atoi(da)%100

sumdays=0

for t in lsyct[0:m]:

sumdays += t

sumdays=(sumdays+d-2+((y%4==0 and y%100!=0 or y%400==0) and m > 2))/7

df20105.index=lsb

df20105n=df20105.reindex() #50ans: df2015n.reindex()

print df20105n #

# df20105n=df20105n.sort_index(by=none) #50ans: index

# rs1=df20105n['boxofficereturn'].groupby([df20105n.index,df20105n['film']]).mean()

# rs2=df20105n['boxofficereturn'].groupby([df20105n.index,df20105n['film']]).sum()

# print rs1 #平均

# print rs2 #求和

#57ans: index

#58ans: film

LeetCode資料庫題 有趣的電影

某城市開了一家新的電影院,吸引了很多人過來看電影。該電影院特別注意使用者體驗,專門有個 led顯示板做電影推薦,上面公布著影評和相關電影描述。作為該電影院的資訊部主管,您需要編寫乙個 sql查詢,找出所有影片描述為非 boring 不無聊 的並且 id 為奇數 的影片,結果請按等級 rating 排...

資料清洗的要素

一是將資料匯入處理工具。通常來說,建議使用資料庫,單機跑數搭建mysql環境即可。如果資料量大 千萬級以上 可以使用文字檔案儲存 python操作的方式。二是看資料。這裡包含兩個部分 一是看元資料,包括字段解釋 資料 表等等一切描述資料的資訊 二是抽取一部分資料,使用人工檢視方式,對資料本身有乙個直...

Pandas的資料清洗

如果一列中含有多個型別,則該列的型別會是object,同樣字串型別的列也會被當成object型別.提取需要的2列資料 data statistic key data statistic time key 刪除空資料的行 data statistic key data statistic key.dr...