爬蟲的基本概念(一)

2021-08-29 03:53:11 字數 877 閱讀 6111

1,http和https

http :超文字傳輸協議,預設埠號:80

https:http + ssl(安全套接字層)預設埠號:443

2,http常見請求頭

1. host(主機和埠)

2. connect(連線型別)

3. upgrade-insecure-requests(公升級為https請求)

4. user-agent(瀏覽器名稱)

5. accept(傳輸檔案型別)

6. referer(頁面跳轉處)

7. accept-encoding(檔案編輯解碼格式)

8. cookie(cookie)

9. x-requested-with:xmlhttp request(是ajax非同步請求)

3,常見的請求方法:

get:

post:

4,響應狀態碼(status code)

200:成功

302:臨時轉移到新的url

307:臨時轉到新的url

404:not found

500: 伺服器內部錯誤

6,爬蟲的定義

網路爬蟲(又稱網路蜘蛛,機械人),就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。

只要瀏覽器能夠做的事情,原則上,爬蟲都能夠做。

7,通用爬蟲和聚焦爬蟲的區別

搜尋引擎爬蟲流程: 抓取網頁–》資料儲存–》預處理–》提供檢索服務,**排名

聚焦爬蟲流程:url list --》響應內容/提取url----》資料儲存—》入庫

搜尋引擎的侷限性:

8,robots協議

是網路通過robots協議告訴搜尋引擎,哪些**可以爬,哪些不可以爬。

爬蟲基本概念

網路爬蟲又稱為網路蜘蛛,網路機械人,是一種按照一定的規則,自動請求全球資訊網 並提取網路資料的程式或指令碼 通常可以按照不同的維度對網路爬蟲進行分類 按照使用場景,可將爬蟲分為通用爬蟲和聚焦爬蟲 按照爬取形式,可分為累積式爬蟲和增量式爬蟲 按照爬取資料的存在方式,可分為表層爬蟲和深層爬蟲 通用爬蟲 ...

一 python爬蟲學習 爬蟲基本概念

例如 url 專業一些的叫法是統一資源定位符 uniform resource locator 它的一般格式如下 帶方括號的為可選項 protocol hostname port path parameters query fragment url 的格式主要由前個三部分組成 443 這兩個url都...

1 爬蟲基本概念

目錄 一 什麼是網路爬蟲?二 爬蟲分類 三 如何編寫爬蟲 四 爬蟲必備技能 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。學會了爬蟲,我們可以做 python爬蟲程式可用於收集資料。這也是最直接和最...