Python一鍵獲取日漫Top100榜單電影資訊

2022-07-10 20:42:13 字數 1630 閱讀 2612

b站的番劇數量,也是相對其他平台比較多的,而且質量都還不錯。說實話,剛開始用嗶哩嗶哩的時候,就是為了看番劇。作為乙個喜歡看番劇的 pk 哥,我決定用爬蟲爬取一下日本動漫電影 top100 都有哪些?網上看了一下,時光網正好有這個排行榜,而且資訊相對來說比較全。

所以我決定用爬蟲把這個榜單上 top100 的所有電影資訊全部儲存為 csv 檔案放在本地,看有沒有之前我遺漏的經典動漫電影。

以下是儲存的效果。儲存的列包括電影名稱、導演編劇、發行公司、更多片名、評分、首日票房、總票房。有些電影沒有評分和票房資訊的就直接顯示為空。

本次爬蟲專案主要分為三個部分。第一部分我們要獲取電影的 id資訊,因為我們需要儲存的所有資訊,都和這個有關。id從**獲取呢?我們開啟這個榜單頁面的源**。源**中我們可以看到,id都在鏈結後面。

為了縮小範圍,我們發現這些鏈結都在 class=top_nlist 裡面,我們用 beautifulsoup 庫提取屬性 class= top_nlist 所有的元素。然後用正規表示式,提取出每頁的 id資訊。

這裡第 1 個頁面需要特殊處理一下,因為第 2 個頁面到第 10 個頁面後面都是直接帶的數字,第 1 個頁面直接我在後面加 -1 的話會報 404,所以這個頁面單獨拿出來提取頁面資訊。然後再把 id 資訊全部加到空列表裡面。

id 資訊獲取了,接下來我們通過 id 資訊來獲取電影的評分和票房資訊。通過 f12 除錯我們可以看到。評分和票房資訊在 js 裡面。

請求鏈結裡變化的就是電影的 id ,其他的保持不變就好。

我們對返回資訊通過簡單的處理轉換為 json 格式。之後我們就可以直接通過 key 值提取 value 值了。這裡主要提取的資訊有:評分、首日票房和總票房。

接下來我們需要通過 id 資訊獲取對應電影的名稱和導演編劇等詳細資訊。這些資訊在源**中,可以直接通過正規表示式來提取。

用正規表示式提取資訊的前提是我們要找到資訊的規律。這樣通過正規表示式提取就又快又準。

提取了這些資訊之後,我們把它儲存在 list 列表中,這樣做的目的是為了後面我們儲存為 csv 檔案做準備。

每頁的資訊獲取了之後,我們就可以把這些資訊追加儲存到 csv 檔案中。每儲存一部電影資訊,儲存下一部電影資訊就進行追加儲存。為了避免儲存後的 csv 檔案開啟出現亂碼,我們需要將編碼形式設定為 encoding='utf-8' 格式。

一鍵獲取keystore資訊

安卓開發獲取debug.keystore的sha1 md5等資訊 複製以下 放入文字檔案中,檔名改為 aa.bat 雙擊執行 echo off echo debug簽名資訊 c cd c homepath android echo android keytool list v keystore de...

Python一鍵多值

import csv file path f jddata classify300.csv csvfile file file path,rb reader csv.reader csvfile 初始化字典 adict dict 遍歷csv檔案裡的每一行資料,其中imagename為資料的第一列,c...

salt一鍵部署python

1.準備工作 我們來看一下一鍵部署python的指令碼。python file file.managed source salt python python 2.7.8.tar.gz name opt python 2.7.8.tar.gz user root group root python i...