爬蟲學習總結

2022-09-22 04:06:09 字數 491 閱讀 9254

1:接觸的爬蟲模組

urllib ,request,selenium

2:robots協議:規定網頁資料那些資料是否能爬去

--requests模組沒有語法對該協議生效

--scrapy中有對該協議進行生效

3:如何解析驗證碼

--驗證嗎,可以用numpy模組對進行處理。

--文字驗證碼,可以使用雲打碼平台,打碼兔等

4:解析資料方式

正則,xpath,bs4

5:抓取動態頁面

--selenium

--ajax 

6:接觸的幾種反爬機制:robots,ua,封ip,驗證碼,動態資料獲取,tonken,資料加密

7:在scrapy接觸爬蟲類:spider,crawlspier,redisspider,rediscrawlspider

8:實現分布式爬蟲:redis-scrapy

redisspider,rediscrawlspider

爬蟲學習總結三

coding utf 8 import scrapy from firstspider.items import firstspideritem class tiebaspider scrapy.spider name tieba 爬蟲名 爬蟲域 start urls 爬蟲起始位址 defparse...

簡單爬蟲總結

url url主要有三部分組成 1 協議,常見的協議有http,https,ftp,file 訪問本地資料夾 ed2k 電驢的專用鏈結 等等。2 存放資源的伺服器的網域名稱系統 dns 主機名或者ip位址 有時候包含埠號,各種傳輸協議都有預設的埠號 3 主機資源的具體位址,如目錄和檔名等 注意 第一...

爬蟲總結(一)

requests模組 response urllib2.urlopen 讀取html原始碼使用read方法 html response.read 1.構造request物件 get請求 url 這種request是get請求,因為沒有給data傳值,如果需要使用get方式傳參,可以把引數經過urll...