爬蟲學習 02 爬蟲基本原理

請求**並提取資料的自動化程式

發起請求：通過http庫向目標站點發起請求，即傳送乙個request，請求可以包含額外的header等資訊，等待伺服器響應。

解析內容：得到的內容可能是html，可以用正規表示式、網頁解析庫進行解析。可能是二進位制資料，可以做儲存或者進一步的處理。

儲存資料：儲存形式多樣，可以儲存為文字，也可以儲存至資料庫，或者儲存特定格式的檔案。

請求方式：主要有get、post兩種型別，另外還有head、put、delete、options等。

請求頭：包含請求時的頭部資訊，如user-agent、host、cookies等資訊。

請求體：請求時額外攜帶的資料，如提交表單資料。

響應狀態：有多種狀態，如200代表成功、301代表跳轉、404找不到網頁、502伺服器錯誤。

響應頭：如服務型別、內容長度、伺服器資訊、設定cookies等等。

1. 網頁文字

2. （二進位制）

4. 其他只要是能請求到的，都能獲取

在使用requests包時，我們這樣只能顯示原本的html**：

import requests
#請求微博
response = requests.get("")
response.text

但是使用selenium下的webdriver.page_source就可以將最終的網頁渲染**提取出來，**如下：

from selenium import webdriver
driver = webdriver.chrome()
driver.get("")
driver.page_source

怎樣儲存資料

一爬蟲是什麼?爬蟲要做的是什麼？使用者獲取網路資料的方式是爬蟲程式要做的就是區別在於我們的爬蟲程式只提取網頁中對我們有用的資料為什麼要做爬蟲爬蟲的價值網際網路中最有價值的便是資料，比如天貓的商品資訊，鏈家網的租房資訊，雪球網的投資資訊等等，這些資料都代表了各個行業的真金可以說，...

三種爬蟲方式通用爬蟲抓取系統重要組成部分，獲取的是整張頁面資料聚焦爬蟲建立在通用爬蟲之上，抓取頁面指定的區域性內容增量式爬蟲檢測資料更新的情況，只抓取更新出來的資料 https協議安全的超文字傳輸協議證書秘鑰加密請求頭響應頭加密方式傳送請求獲取響應內容解析內容儲存資料...

一爬蟲介紹本質，就是想傳送http請求，拿回一些頁面 json格式資料 request 處理資料，解析出有用的東西 re，bs4 儲存 mysql，檔案，cvs，redis，mongodb，es 分析 cookie池和池正向和反向正向自己，反向伺服器爬蟲運用模組 requests...