為完成爬取豆瓣Top250做的準備四

2021-10-19 22:56:24 字數 1218 閱讀 2287

分多個板塊,不同板塊之間用空行隔開,每個**塊幾乎都被注釋掉了,主要是出於簡潔考慮,因為會有重複部分,**塊中前部分是**,後部分是執行結果.

import urllib.request

#獲取乙個get請求

# res = urllib.request.urlopen("")

# print(res.read().decode("utf-8")) #對獲取到的網頁原始碼進行utf-8解碼

#獲取乙個post請求

# import urllib.parse

# data = bytes(urllib.parse.urlencode(),encoding='utf-8')

# res = urllib.request.urlopen("",data=data)

# print(res.read().decode("utf-8"))

#res = urllib.request.urlopen("",timeout=1)#timeout檢測是否超時,一般設定為3-5秒

#print(res.read().decode("utf-8"))

# res = urllib.request.urlopen("")

# print(res.status)

# print(res.getheaders())

# print(res.getheader('date'))

# import urllib.parse

# url = ""

# headers =

# data = bytes(urllib.parse.urlencode(),encoding='utf-8')

# req = urllib.request.request(url,data=data,headers=headers,method="post")

# res = urllib.request.urlopen(req)

# print(res.read().decode("utf-8"))

url = ""

headers =

req = urllib.request.request(url,headers=headers)

res = urllib.request.urlopen(req)

print(res.read().decode("utf-8"))

為完成爬取豆瓣Top250做的準備二

分多個板塊,不同板塊之間用空行隔開,每個 塊幾乎都被注釋掉了,主要是出於簡潔考慮,因為會有重複部分,塊中前部分是 後部分是執行結果.正規表示式 字串模式 判斷字串是否符合一定的標準 import re 建立模式物件 有模式物件 pat re.compile aa 此處的aa是正規表示式 用來驗證其它...

為完成爬取豆瓣Top250做的準備三

分多個板塊,不同板塊之間用空行隔開,每個 塊幾乎都被注釋掉了,主要是出於簡潔考慮,因為會有重複部分,塊中前部分是 後部分是執行結果.import sqlite3 1.連線資料庫 conn sqlite3.connect test.db 開啟或建立資料庫檔案 print opened database...

爬取豆瓣Top250

requests庫可以自動爬取html頁面,自動網路請求提交。安裝方法 pip install requests requests庫主要有7個方法 首先開啟網頁 豆瓣top250 然後f12,得到如下圖 我們要找的內容在紅框裡面。這個頁面有25個電影,第乙個頁面 第二個頁面 我們可以觀察到 每個頁面...