爬取貓眼top100

2022-07-20 15:54:11 字數 975 閱讀 8716

導入庫

json用於讀取和寫入檔案

requests請求html

requestexception用於獲取requests錯誤

time定義時間

re正規表示式

import json

import requests

from requests.exceptions import requestexception

import time

import re

定義獲取乙個頁面

def get_one_page(url):

try:

header =

寫入到檔案

def write_to_file(content):

with open('result.txt','a',encoding='utf8') as f:

f.write(json.dumps(content,ensure_ascii=false) + '\n')

f.close()

定義爬取頁面

def main(offset):

url = "" + str(offset)

html = get_one_page(url)

#print(html)

for item in parse_one_page(html):

# print(item)

write_to_file(item)

主程式

if __name__ == '__main__':

for i in range(10):

main(i*10)

time.sleep(1)

爬取貓眼TOP100

學完正則的乙個小例子就是爬取貓眼排行榜top100的所有電影資訊 看一下網頁結構 可以看出要爬取的資訊在標籤和標籤中間 正規表示式如下 pattern re.compile board index.data src name.a.star releasetime integer fraction r...

爬蟲 爬取貓眼TOP100

原文崔慶才 python3網路爬蟲實戰 目標 熟悉正規表示式,以及爬蟲流程 獲取貓眼top100榜單 1 分析 目標站點為需要獲取 top100榜單的影片名稱 主演 上映時間 地區 評分等資訊都直接顯示在network對應的response中,可解析對應的html進行獲取。且從第1頁到第二頁,url...

小白回顧 爬取貓眼Top100

昨天寫的乙個爬蟲基礎課程爬取貓眼top100,今天分享一下 爬取貓眼top100 先導入import requests庫 html request.get url 這個函式可以獲取url裡面的內容 我們可以輸出html.text檢測一下 print html.text 這裡可能會出現錯誤,所以我們要...