python爬蟲之re requests實戰

2021-08-21 20:59:23 字數 1797 閱讀 5075

錯誤如下

但是第一次爬取就可以,有大佬可以指導一下

**如下:

#encoding:utf-8

import requests

import re

import time

def gethtml1(url):

bs =

r=requests.get(url,headers=bs,timeout=60)

pattern = ""

href = re.findall(pattern, r.text, re.s)

pattern = "(.*?) "

names = re.findall(pattern, r.text, re.s)

infolist =

for i in range(len(href)):

tittle = names[i]

url = "" + href[i]

for i in range(len(infolist)):

print(infolist[i])

def gethtml2(url):

bs =

r = requests.get(url, headers=bs, timeout=60)

pattern=""

name=re.findall(pattern,r.text,re.s)

print(name)

pattern = "(.*?)"

href = re.findall(pattern,r.text,re.s)

print(len(href))

print("將.com 後的括號去掉即可正確訪問")

for i in range(len(href)):

print("www.maomitt9.com",end="")

print(href[i])

def start():

scale = 50

print("執行開始")

start=time.perf_counter()

for i in range(101):

a = '|'*i

b = ''*(scale-i)

c = ((i/scale)*100)/2

dur = time.perf_counter()-start

print("\r%[{}->{}]s".format(c,a,b,dur),end="")

time.sleep(0.01)

print("\n執行結束")

if __name__ == '__main__':

url=""

start()

gethtml1(url)

while(1):

try:

#url = "/dm/rbdm/12948.html"

url2=input("輸入要爬取下級頁面的網頁(僅支援具有集數的欄目):")

gethtml2(url2)

print("請等待!")

time.sleep(5)

except:

print("失敗!")

print("請等待!")

time.sleep(5)

效果如下

二級頁面爬取效果如下:

Python爬蟲之爬蟲概述

知識點 模擬瀏覽器,傳送請求,獲取響應 網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端 主要指瀏覽器 傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。知識點 了解 爬蟲的概念 爬蟲在網際網路世界中有很多的作用,比如 資料採集 抓取招聘 的招聘資訊 資料分析 挖掘...

python爬蟲感悟 Python之爬蟲有感(一)

urllib.request.request url headers headers user agent 是爬蟲和反爬蟲鬥爭的第一步,傳送請求必須帶user agent 使用流程 1 建立請求物件 request urlllib.request.request url 2 傳送請求獲取響應物件 r...

python爬蟲header 爬蟲之header

有些 不會同意程式直接用上面的方式進行訪問,如果識別有問題,那麼站點根本不會響應,所以為了完全模擬瀏覽器的工作,我們需要設定一些headers 的屬性。首先,開啟我們的瀏覽器,除錯瀏覽器f12,我用的是chrome,開啟網路監聽,示意如下,比如知乎,點登入之後,我們會發現登陸之後介面都變化了,出現乙...