python爬蟲之基礎概念篇

2021-10-10 05:23:55 字數 814 閱讀 1157

#最近在學爬蟲,把學習過程做個記錄,也方便自己以後檢視。

##一、基礎概念篇

*爬蟲在使用場景中的分類

-通用爬蟲:

抓取系統重要組成部分。抓取的是一整張頁面資料。

-聚焦爬蟲:

是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的區域性內容。

-增量式爬蟲:

檢測**中資料更新的情況。只會抓取**中最新更新出來的資料。

*robots.txt協議:

君子協議。規定了**中哪些資料可以被爬蟲爬取哪些資料不可以被爬取。

例如檢視**網頁哪些資料允許爬取,可訪問

*http協議

-概念:就是伺服器和客戶端進行資料互動的一種形式。

常用請求頭資訊

-user-agent:請求載體的身份標識

-connection:請求完畢後,是斷開連線還是保持連線常用響應頭資訊

-content-type:伺服器響應回客戶端的資料型別

*https協議:

-安全的超文字傳輸協議

加密方式

-對稱秘鑰加密:

-非對稱秘鑰加密:

-證書秘鑰加密:

python爬蟲入門 之基礎概念

anaconda3 5.0.0 windows x86.exe anaconda3 5.0.0 macosx x86 64.sh anaconda3 5.0.0 linux ppc64le.sh anaconda3 5.0.0 linux x86.sh 推薦鏈結位址 anaconda是乙個整合環境 ...

Python 爬蟲 概念基礎

通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程 爬蟲在使用中的分類 通用爬蟲 抓取系統的重要主城部分,抓取的是整張頁面的資料。聚焦爬蟲 建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。增量式爬蟲 檢測 中資料更新的情況,只會抓取 中最新更新的資料。反爬機制 各個 通過制定相應的策略或技...

Python爬蟲之Scrapy學習(基礎篇)

在爬蟲的路上,學習scrapy是乙個必不可少的環節。也許有好多朋友此時此刻也正在接觸並學習scrapy,那麼很好,我們一起學習。開始接觸scrapy的朋友可能會有些疑惑,畢竟是乙個框架,上來不知從何學起。從本篇起,博主將開啟scrapy學習的系列,分享如何快速入門scrapy並熟練使用它。本篇作為第...