PYTHON爬蟲學習(一) 基礎概念

2021-10-11 02:38:12 字數 1179 閱讀 9354

通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程
–通用爬蟲:抓取系統的重要組成部分。抓取的是一整張頁面資料

–聚焦爬蟲:

建立在通用爬蟲的基礎上。抓取的是頁面中特定的區域性內容

–增量式爬蟲:

檢測**中資料更新的情況。只會抓取**中最新更新出來的資料

1.robots.txt協議:·1.http協議:

--概念:就是伺服器和客戶端進行資料互動的一種形式

常用請求頭資訊:

--user-agent: 請求載體的身份標識(什麼瀏覽器,機子型號等)

--connection:請求完畢後,是斷開連線還是保持連線

常用響應頭資訊:

--content-type : 伺服器響應會客戶端的資料型別

2.https協議:

--安全的超文字協議(http)

加密方式:

--對稱金鑰加密

--非對稱金鑰加密

--*證書金鑰加密*

·對稱金鑰加密:

缺點:在傳輸的時候如果被連線,金鑰的資訊也會被攔截下來,從而看到裡面的加密資訊

·非對稱金鑰加密:

有兩把鎖,一把叫做私有金鑰,一把是公開金鑰,伺服器先告訴客戶端按照自己給出的公開金鑰進行加密處理,客戶端按照公開金鑰加密後,伺服器接收到資訊後再通過自己的私有金鑰進行解密。這樣的好處就是解密的鑰匙不會進行傳輸,也就不會被挾持

缺點:·效率低,處理負載

·公鑰也有可能被挾持,只要是傳送金鑰,就有被挾持的風險

·證書金鑰加密:

金鑰不需要傳輸,有數字簽名不會被篡改,非常安全

Python 爬蟲 概念基礎

通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程 爬蟲在使用中的分類 通用爬蟲 抓取系統的重要主城部分,抓取的是整張頁面的資料。聚焦爬蟲 建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。增量式爬蟲 檢測 中資料更新的情況,只會抓取 中最新更新的資料。反爬機制 各個 通過制定相應的策略或技...

一 python爬蟲學習 爬蟲基本概念

例如 url 專業一些的叫法是統一資源定位符 uniform resource locator 它的一般格式如下 帶方括號的為可選項 protocol hostname port path parameters query fragment url 的格式主要由前個三部分組成 443 這兩個url都...

爬蟲基礎概念

1.通過ua識別爬蟲 有些爬蟲的ua是特殊的,與正常瀏覽器的不一樣,可通過識別特徵ua,直接封掉爬蟲請求 2.設定ip訪問頻率,如果超過一定頻率,則封掉爬蟲請求 3.彈出驗證碼 如果輸入正確的驗證碼,則放行,如果沒有輸入,則拉入禁止一段時間,如果超過禁爬時間,再次觸發驗證碼,則拉入黑名單。當然根據具...