2023年大資料比賽本科組 第3題 電影資料分析

2021-09-25 23:38:03 字數 1296 閱讀 7136

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from pandas import series,dataframe

df = pd.read_table("h:\pythondata\\top250_f1.txt",encoding='utf8',delimiter='\t')

print(df[["rating_num","title","comment_num"]].sort_values(by='comment_num',ascending=false))

#第二問:統計2023年以後電影最多的5個地區

df_diqu = df.loc[df['init_year']>2013]

df_new = df_diqu.groupby('init_year')

df_diqu = dataframe(df_diqu)

movie_count = df_diqu[['area']].sort_values(by='area',ascending=false)

#這裡tolist將其dataframe形式轉換為series

lists = movie_count["area"].tolist()

def all_list(a):

result = {}

for i in set(a):

result[i] = a.count(i)

return result

# 對出現較多的地區按從大到小的順序排列

# sorted對字典的排序,zip高階函式把資料變成(值,鍵)元組形式

#這裡的字典排序本身是從小到大排列的,使用reverse為true使其變為從大到小排列

print(sorted(zip(all_list(lists).values(),all_list(lists).keys()),reverse=true))

#然後找出電影型別中同時包含「劇情」和「愛情」的,係數最大的前十部,這一問寫了一半沒寫完

list1 = df['comment_num']

list2 = df['rating_num']

dianying_redu = list1*list2

# 將電影熱度計算的結果作為新的一列新增到表中

df['redu'] = dianying_redu

s1 = df[['title','genre','redu']].sort_values(by='redu',ascending=false)

開源大資料週刊 2023年08月03日 第95期

apache kafka 2.0.0 已正式發布,這是乙個主要版本,新增了許多重要的新功能。此外還包括許多重要的 bug 修復和改進,其中還包括一些嚴重的錯誤修復。2018中國人工智慧大會在深圳舉行。會上,國際人工智慧聯合會 ijcai 主席 aaai acm ieee fellow 香港科技大學教...

從大資料到大智慧型 2023年的6大IT關鍵趨勢

1 大資料成為企業的智慧型之源 從大資料集中提取業務價值,這當然不是今年的新趨勢,但這些資料的 都在不斷多樣化。收集 整合和分析來自 邊緣 的資料至關重要,如何利用這些資料洪流將成為今年許多企業關注的焦點。相關的,我們將看到資料為ai在商業智慧型領域帶來新的可能性。idc 到2020年,90 的大型...

2023年大資料經典面試題和回答技巧!!鼓掌

1 海量日誌資料,提取出某日訪問次數最多的那個ip。解決方案 首先是將這一天,並且是訪問的日誌中的ip取出來,逐個寫入到乙個大檔案中。注意到ip是32位的,最多有個2 32個ip。同樣可以採用對映的方法,比如模1000,把整個大檔案對映為1000個小檔案,再找出每個小文 現頻率最大的ip 可以採用h...