Movielens IMDB電影資料分析 三

2021-09-11 07:06:02 字數 1119 閱讀 1656

電影時長不是數值,而是字串

電影流派不是原子資料,很難提取特定的流派做分析。

上映年份格式修正

投票數修正為整型

本來以為自己爬取的資料存在兩個瑕疵,但是在實際應用中發現,還有乙個巨大的瑕疵:desecribe的時候,發現votes一列不能被describe。

進行info檢視資訊的時候,發現votes是一組物件,不為整型。使用int()函式強制轉換的時候,出現報錯。這才想起,爬取的資料為帶逗號的數字,在python中被識別為字串。

1.將電影時長轉換為整型

遍歷電影時長,將時長進行**(以空格**),**後成為列表,列表的第乙個元素即為時長,轉換為浮點型替換原有時長。

2.電影流派不是原子資料,很難提取特定的流派做分析。

首先建立乙個空的set(set函式用於建立無序不重複元素集)。

然後,遍歷genres,genres中的每個元素又為乙個列表,遍歷列表中的每個元素,利用逗號進行**,對**後的元素去除空格,然後再進行排序。

為每個流派建立乙個單獨的列,利用布林型表示其流派資訊。

3.上映年份格式修正

先使用正規表示式匹配年份,然後將匹配的年份由字串轉換為整型,再遍歷列表進行替換。

4.投票數修正為整型

先使用逗號**字串,**後的物件為乙個列表,遍歷列表,利用join函式對列表元素進行拼接,然後遍歷整個data進行替換。

Movielens IMDB電影資料分析 一

該專案源自科賽網的訓練專案。背景專案簡介 此資料集包含來自movielens 電影推薦服務的5星評分和文字標記資料和來自imdb1950 2012年imdb top10000排行榜資料。movielens資料集包含27278部電影的20000263份評分和465564次標籤應用。這些資料是由1995...

爬取貓眼電影排行100電影

import json import requests from requests.exceptions import requestexception import re import time 獲取單頁的內容 def get one page url try response requests....

小程式 電影商城 娛樂 電影列表

一 小程式 電影 娛樂 電影列表首頁 小程式版本主頁 二 小程式 電影 娛樂 電影列表 豆瓣網 提供開放介面 介面 熱門電影列表 apikey 0df993c66c0c636e29ecbb5344252a4a 豆瓣開發者鑰匙 start 0 count 10 start 從第幾條記錄開始 count...