爬蟲兩個問題

2022-03-14 03:44:45 字數 1579 閱讀 4706

乙個python的爬蟲,爬取,出現以下報錯:

requests.exceptions.connectionerror: (『connection aborted.』, error(54, 『connection reset by peer』))

不是大問題,可能因為訪問過於頻繁,通過忽略可以解決,參考此**

有說原因:mac openssl 版本過低,鏈結如下

這個方法正在嘗試,還不知結果,前一種方法確認可行,不深究完全可以

引用自algondon,侵刪

max retries exceeded with url: 劉德華/114923

(caused by newconnectionerror(':

failed to establish a new connection: [errno -2] name or service not known',))

經過一番查詢,發現該錯誤是因為如下:

http的連線數超過最大限制,預設的情況下連線是keep-alive的,所以這就導致了伺服器保持了太多連線而不能再新建連線。

ip被封

程式請求速度過快。

解決辦法如下:

第一種方法

try:

page1 = requests.get(ap)

except requests.exceptions.connectionerror:

r.status_code = "connection refused"

第二種方法:

request的連線數過多而導致max retries exceeded

在header中不使用持久連線

'connection': 'close'

或requests.adapters.default_retries = 5

第三種方法:

針對請求請求速度過快導致程式報錯。

import time

while 1:

try:

page = requests.get(url)

except:

print("connection refused by the server..")

print("let me sleep for 5 seconds")

print("zzzzzz...")

time.sleep(5)

print("was a nice sleep, now let me continue...")

continue

兩個小問題

最近實驗室的工作上碰到的兩個小問題,記錄一下。1.yuv顏色空間的gmm 之前用過很多次的在rgb上的混合高斯模型,最近需要對乙個yuv序列使用gmm方法建背景。因為有現成的 所以第乙個出現在腦海中的想法就是用公式把yuv轉成rgb之後,完了再轉回yuv。後來再回頭一想,完全不必要如此,因為gmm完...

解決兩個問題

早上一開啟虛擬機器登入ubuntu,就遇到兩個問題,2 登入進去後,ubuntu的工作列不見了。解決方案 1 對於第乙個問題,使用如下命令 sudo chmod 755 r home 使用者名稱 chmod 644 home 使用者名稱 dmrc 2 對於第二個問題,1,安裝gnome panel ...

最有用的兩個爬蟲工具

首先是selenium。這個玩意,特別適合爬一些反爬蟲很強,但是無需登入的 當然需要登陸的也可以搞。只要你提前登陸一下就行。這庫里,最有用的東西就是下面的 from selenium import webdriver import lxml.etree browser webdriver.firef...