爬蟲整理（部分）

使用時需要匯入

from urllib import parse

urlencode：將字典引數轉化為url編碼後的字串

parse_qs;將url編碼格式的引數轉化為字典型別

quote;將中文轉化為url編碼格式

unquote：將url編碼進行解碼

指的是**伺服器，功能是**網路使用者去取得網路資訊

* 西刺免費**ip：

* 快**免費**:

自定義**：

from urllib import request,error
#構建支援**的handler
proxy = 
#構建乙個私密**handler，需要加上私密**賬戶的使用者名稱和密碼
#proxy = 
proxy_handler = request.proxyhandler(
proxies=proxy
)#根據proxy_handler例項化乙個opener物件
opener = request.build_opener(proxy_handler)
#使用介面驗證使用了**
#url = ''
try:
response = opener.open(url,timeout=5) 
# 將自定義的opener設定為全域性的opener，之後使用urlopen() 傳送請求，都將使用自定義opener物件。
print(err.reason)

requests的使用：

pip install requests

原始碼分析：

配置檔案引數
settings_params_map =

是分布式爬蟲的入口

通過connection介面，spider初始化時，通過setup_redis()函式初始化好和redis的連線。

通過next_requests函式從redis中取出strat url，spider使用少量的start url + linkextractor，可以發展出很多新的url，這些url會進入scheduler進行判重和排程。直到spider跑到排程池內沒有url的時候，會觸發spider_idle訊號，從而觸發spider的next_requests函式。

再次從redis的start url池中讀取一些url。

scheduler在每個主機上都會例項化乙個，並且和spider一一對應，所以分布式執行時會有乙個spider的多個例項和乙個scheduler的多個例項存在於不同的主機上。

為scheduler都是用相同的容器，而這些容器都連線同乙個 redis伺服器，又都使用spider名 + queue來作為key 讀寫資料，所以不同主機上的不同爬蟲例項公用乙個request排程池，實現了分布式爬蟲之間的統一排程

scheduler負責排程各個spider的request請求，scheduler初始化時，通過settings檔案讀取queue和dupefilters（url去重）的型別，配置queue和dupefilters使用的key

每當乙個request要被排程時，enqueue_request被呼叫，scheduler使用dupefilters來判斷這個url是否重複，如果不重複，就新增到queue的容器中（三種佇列方式：先進先出，先進後出和優先順序都可以，可以在settings中配置）

當排程完成時，next_request被呼叫，scheduler就通過queue容器的介面，取出乙個request，把他傳送給相應的spider，讓spider進行爬取工作。

爬蟲整理（部分）

網路爬蟲整理

GDB部分知識整理

演算法部分整理

爬蟲整理（部分）

網路爬蟲整理

GDB部分知識整理

演算法部分整理

相關推薦