Scrapy爬蟲系列筆記之一 總綱 by 書訢

2021-08-15 11:46:13 字數 583 閱讀 2223

這段時間因為專案需要一直在學習爬蟲,擔心像以前一樣很多時候學習了新技術很久以後不用就忘掉很多。於是寫下筆記,一方面幫助自己總結知識,以後回顧更快。另一方面幫助和我一樣初次接觸爬蟲的人快速入門。以下是筆記大綱

1.1正規表示式

1.2深度優先和廣度優先演算法

1.3url去重策略

2.1實戰準備工作

2.2靜態**爬取

2.3資料儲存

2.4itemloader減小**維護難度

2.5動態**爬取之selenium

3.1user-agent

3.2ip**

3.2註冊賬號,每次請求帶cookie

3.4模仿人限制速度

3.5驗證碼識別

3.6selenium進行動態**資料爬取

理解scrapy-redis分布式爬蟲

整合bloomfilter到scrapy-redis中

筆記一到十鏈結

Django學習筆記(一) 總況

主要是 於官方文件學習 主要記錄我乙個菜鳥的學習過程和總結,大牛繞行 mysite manage.py mysite init py settings.py 專案的配置檔案 wsgi.py 尚不知polls init py admin.py models.py 模型層,與資料直接對應 tests.p...

Python爬蟲簡述系列之一

根據使用場景,網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種.搜尋引擎網路爬蟲的基本工作流程如下 1,首先選取一部分的種子url,將這些url放入待抓取url佇列 3,分析已抓取url佇列中的url,分析其中的其他url,並且將url放入待抓取url佇列,從而進入下乙個迴圈 在其他 上設定新 外鏈 盡可能處於...

BT客戶端原始碼分析之一 總述

概述 相對於 tracker 伺服器來說,bt客戶端要複雜的多,bram cohen 花了一年 full time 的時間來完成 bt,我估計其中大部分時間是用在 bt 客戶端的實現和除錯上了。由 於 bt 客戶端涉及的 比較多,我不能再象分析 tracker 伺服器那樣,走上來就深入到細節之中去,...