爬蟲整理(部分)

2021-09-27 08:16:23 字數 1991 閱讀 9781

使用時需要匯入

from urllib import parse

urlencode:將字典引數轉化為url編碼後的字串

parse_qs;將url編碼格式的引數轉化為字典型別

quote;將中文轉化為url編碼格式

unquote:將url編碼進行解碼

指的是**伺服器,功能是**網路使用者去取得網路資訊

* 西刺免費**ip:

* 快**免費**:

自定義**:

from urllib import request,error

#構建支援**的handler

proxy =

#構建乙個私密**handler,需要加上私密**賬戶的使用者名稱和密碼

#proxy =

proxy_handler = request.proxyhandler(

proxies=proxy

)#根據proxy_handler例項化乙個opener物件

opener = request.build_opener(proxy_handler)

#使用介面驗證使用了**

#url = ''

try:

response = opener.open(url,timeout=5)

# 將自定義的opener設定為全域性的opener,之後使用urlopen() 傳送請求,都將使用自定義opener物件。

print(err.reason)

requests的使用:

pip install requests
原始碼分析:

配置檔案引數

settings_params_map =

是分布式爬蟲的入口

通過connection介面,spider初始化時,通過setup_redis()函式初始化好和redis的連線。

通過next_requests函式從redis中取出strat url,spider使用少量的start url + linkextractor,可以發展出很多新的url,這些url會進入scheduler進行判重和排程。直到spider跑到排程池內沒有url的時候,會觸發spider_idle訊號,從而觸發spider的next_requests函式。

再次從redis的start url池中讀取一些url。

scheduler在每個主機上都會例項化乙個,並且和spider一一對應,所以分布式執行時會有乙個spider的多個例項和乙個scheduler的多個例項存在於不同的主機上。

為scheduler都是用相同的容器,而這些容器都連線同乙個 redis伺服器,又都使用spider名 + queue來作為key 讀寫資料,所以不同主機上的不同爬蟲例項公用乙個request排程池,實現了分布式爬蟲之間的統一排程

scheduler負責排程各個spider的request請求,scheduler初始化時,通過settings檔案讀取queue和dupefilters(url去重)的型別,配置queue和dupefilters使用的key

每當乙個request要被排程時,enqueue_request被呼叫,scheduler使用dupefilters來判斷這個url是否重複,如果不重複,就新增到queue的容器中(三種佇列方式:先進先出,先進後出和優先順序都可以,可以在settings中配置)

當排程完成時,next_request被呼叫,scheduler就通過queue容器的介面,取出乙個request,把他傳送給相應的spider,讓spider進行爬取工作。

網路爬蟲整理

最近在為自己搭建的 忙碌,記錄下爬蟲資料 除了基礎的利用python re,beautifulsoup爬取之外,可以連線mysql 資料庫將爬取資訊匯入資料庫,例子如下 coding utf 8 import mysqldb as mdb import sys try con mdb.connect...

GDB部分知識整理

gdb除錯從基礎到精通例項 gdb主要功能 1 啟動程式,並且按照特定的要求執行程式 2 可讓被呼叫的程式在指定的斷點位置停住,斷點可以是條件表示式 3 當程式被停止時,可以檢查此時程式所發生的事情 4 動態的改變程式的執行環境 gdb一般用於除錯c c 程式 gdb如果希望除錯程式那麼在編譯的時候...

演算法部分整理

1.pca主成分分析 主成分分析 principal component analysis,pca 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。無監督的學習,往特徵量最大的特徵向量的分銷商投影 pca的主要問題 沒有考慮類別號 進行主成...