為完成爬取豆瓣Top250做的準備二

2021-10-19 22:54:21 字數 965 閱讀 7345

分多個板塊,不同板塊之間用空行隔開,每個**塊幾乎都被注釋掉了,主要是出於簡潔考慮,因為會有重複部分,**塊中前部分是**,後部分是執行結果.

#正規表示式:字串模式(判斷字串是否符合一定的標準)

import re

#建立模式物件

#有模式物件

# pat = re.compile("aa")#此處的aa是正規表示式-用來驗證其它的字串

# m = pat.search("abc")#search字串被校驗的內容

# print(m)

# none

# m = pat.search("abcaa")#search進行比對查詢

# print(m)

# #沒有模式物件

# m = re.search("ask","aask") #前面的字串是規則(模板),後面的字串是校驗的內容

# print(m)

# # print(re.findall('a',"hadjna"))#前面字串是規則(正規表示式)-後面字串是被校驗的字串

# ['a', 'a']

# print(re.findall("[a-z]","ahihgafidb"))

# ['a', 'a', 'd', 'b']

# print(re.findall("[a-z]+","fihifhihjifhr"))

# ['fih', 'h', 'fhr']

#sub

# print(re.sub("a","a","ahnvdhaca")) #找到a,用a來替換,在第三個字串中查詢

# ahnvdhaca

# 建議在正規表示式中-被比較的字串前面加上r/r-不用擔心轉義字元的問題

# a = r"\aabd-\2"

# print(a)

# \aabd-\2

為完成爬取豆瓣Top250做的準備三

分多個板塊,不同板塊之間用空行隔開,每個 塊幾乎都被注釋掉了,主要是出於簡潔考慮,因為會有重複部分,塊中前部分是 後部分是執行結果.import sqlite3 1.連線資料庫 conn sqlite3.connect test.db 開啟或建立資料庫檔案 print opened database...

為完成爬取豆瓣Top250做的準備四

分多個板塊,不同板塊之間用空行隔開,每個 塊幾乎都被注釋掉了,主要是出於簡潔考慮,因為會有重複部分,塊中前部分是 後部分是執行結果.import urllib.request 獲取乙個get請求 res urllib.request.urlopen print res.read decode utf...

爬取豆瓣Top250

requests庫可以自動爬取html頁面,自動網路請求提交。安裝方法 pip install requests requests庫主要有7個方法 首先開啟網頁 豆瓣top250 然後f12,得到如下圖 我們要找的內容在紅框裡面。這個頁面有25個電影,第乙個頁面 第二個頁面 我們可以觀察到 每個頁面...