爬蟲的基本概念（一）

1，http和https

http :超文字傳輸協議，預設埠號：80

https：http + ssl(安全套接字層）預設埠號：443

2，http常見請求頭

1. host(主機和埠）

2. connect（連線型別）

3. upgrade-insecure-requests(公升級為https請求）

4. user-agent(瀏覽器名稱）

5. accept（傳輸檔案型別）

6. referer(頁面跳轉處）

7. accept-encoding(檔案編輯解碼格式）

8. cookie（cookie）

9. x-requested-with:xmlhttp request(是ajax非同步請求）

3，常見的請求方法：

get：

post：

4，響應狀態碼（status code）

200:成功

302：臨時轉移到新的url

307：臨時轉到新的url

404：not found

500: 伺服器內部錯誤

6，爬蟲的定義

網路爬蟲（又稱網路蜘蛛，機械人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

只要瀏覽器能夠做的事情，原則上，爬蟲都能夠做。

7，通用爬蟲和聚焦爬蟲的區別

搜尋引擎爬蟲流程：抓取網頁–》資料儲存–》預處理–》提供檢索服務，**排名

聚焦爬蟲流程：url list --》響應內容/提取url----》資料儲存—》入庫

搜尋引擎的侷限性：

8，robots協議

是網路通過robots協議告訴搜尋引擎，哪些**可以爬，哪些不可以爬。

爬蟲基本概念

網路爬蟲又稱為網路蜘蛛,網路機械人,是一種按照一定的規則,自動請求全球資訊網並提取網路資料的程式或指令碼通常可以按照不同的維度對網路爬蟲進行分類按照使用場景,可將爬蟲分為通用爬蟲和聚焦爬蟲按照爬取形式,可分為累積式爬蟲和增量式爬蟲按照爬取資料的存在方式,可分為表層爬蟲和深層爬蟲通用爬蟲 ...

一 python爬蟲學習爬蟲基本概念

例如 url 專業一些的叫法是統一資源定位符 uniform resource locator 它的一般格式如下帶方括號的為可選項 protocol hostname port path parameters query fragment url 的格式主要由前個三部分組成 443 這兩個url都...

1 爬蟲基本概念

目錄一什麼是網路爬蟲？二爬蟲分類三如何編寫爬蟲四爬蟲必備技能網路爬蟲又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。學會了爬蟲，我們可以做 python爬蟲程式可用於收集資料。這也是最直接和最...

爬蟲的基本概念（一）

爬蟲基本概念

一 python爬蟲學習 爬蟲基本概念

1 爬蟲基本概念

相關推薦

一 python爬蟲學習爬蟲基本概念