python爬蟲之re requests實戰

錯誤如下

但是第一次爬取就可以，有大佬可以指導一下

**如下：

#encoding:utf-8
import requests
import re
import time
def gethtml1(url):
bs =
r=requests.get(url,headers=bs,timeout=60)
pattern = ""
href = re.findall(pattern, r.text, re.s)
pattern = "(.*?) "
names = re.findall(pattern, r.text, re.s)
infolist = 
for i in range(len(href)):
tittle = names[i]
url = "" + href[i]
for i in range(len(infolist)):
print(infolist[i])
def gethtml2(url):
bs = 
r = requests.get(url, headers=bs, timeout=60)
pattern=""
name=re.findall(pattern,r.text,re.s)
print(name)
pattern = "(.*?)"
href = re.findall(pattern,r.text,re.s)
print(len(href))
print("將.com 後的括號去掉即可正確訪問")
for i in range(len(href)):
print("www.maomitt9.com",end="")
print(href[i])
def start():
scale = 50
print("執行開始")
start=time.perf_counter()
for i in range(101):
a = '|'*i
b = ''*(scale-i)
c = ((i/scale)*100)/2
dur = time.perf_counter()-start
print("\r%[{}->{}]s".format(c,a,b,dur),end="")
time.sleep(0.01)
print("\n執行結束")
if __name__ == '__main__':
url=""
start()
gethtml1(url)
while(1):
try:
#url = "/dm/rbdm/12948.html"
url2=input("輸入要爬取下級頁面的網頁(僅支援具有集數的欄目)：")
gethtml2(url2)
print("請等待！")
time.sleep(5)
except:
print("失敗！")
print("請等待！")
time.sleep(5)

效果如下

二級頁面爬取效果如下：

Python爬蟲之爬蟲概述

知識點模擬瀏覽器，傳送請求，獲取響應網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬客戶端主要指瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。知識點了解爬蟲的概念爬蟲在網際網路世界中有很多的作用，比如資料採集抓取招聘的招聘資訊資料分析挖掘...

python爬蟲感悟 Python之爬蟲有感（一）

urllib.request.request url headers headers user agent 是爬蟲和反爬蟲鬥爭的第一步，傳送請求必須帶user agent 使用流程 1 建立請求物件 request urlllib.request.request url 2 傳送請求獲取響應物件 r...

python爬蟲header 爬蟲之header

有些不會同意程式直接用上面的方式進行訪問，如果識別有問題，那麼站點根本不會響應，所以為了完全模擬瀏覽器的工作，我們需要設定一些headers 的屬性。首先，開啟我們的瀏覽器，除錯瀏覽器f12，我用的是chrome，開啟網路監聽，示意如下，比如知乎，點登入之後，我們會發現登陸之後介面都變化了，出現乙...

python爬蟲之re requests實戰

Python爬蟲之爬蟲概述

python爬蟲感悟 Python之爬蟲有感（一）

python爬蟲header 爬蟲之header

相關推薦