爬蟲原理 GET POST

靜態頁面：資料儲存在網頁的html中

動態頁面：資料不直接儲存在html中，而是伺服器後台單獨傳輸資料，再渲染到頁面中。

動態頁面獲取資料，必須抓包，找出瀏覽器和伺服器之間傳遞的資料（json、js、xml）

get：可能會有查詢字串，但是一定沒有表單資料（查詢字串會顯示在url後面）

post：可能會有查詢字串，但是一定有表單資料（表單資料儲存在請求體裡傳送）

匹配：""" ^(.?):\s(.?)$ 「」"

替換：""" 「\1」 : 「\2」, 「」"

sublime text：選中部分向下多選， ctrl + d

cookie的兩種用法：

（最常用最簡單）直接手動登入**並儲存cookie，用於程式的請求報頭中

（不常用很複雜）模擬登入：

-1. 先分析登入頁面，抓包獲取需要的登入引數

-2. 傳送登入頁面的get請求，提取登入引數

-3. 附帶登入引數和賬戶密碼，傳送post登入請求，如果登入成功則記錄cookie

-4. 附帶這個登入後的cookie，傳送其他需要登入才能訪問的頁面

import requests

response.encoding = 「utf-8」 # 手動指定網頁的編碼，如果不指定則靠猜

response.text # 根據encoding來解碼，獲取網頁unicode編碼字串

爬蟲就是請求並提取資料的自動化程式。其中請求，提取，自動化是爬蟲的關鍵！下面我們分析爬蟲的基本流程發起請求通過http庫向目標站點發起請求，也就是傳送乙個request，請求可以包含額外的header等資訊，等待伺服器響應獲取響應內容解析內容得到的內容可能是html,可以用正規表示式，頁面...

簡單來說網際網路是由乙個個站點和網路裝置組成的大網，我們通過瀏覽器訪問站點，站點把html js css 返回給瀏覽器，這些經過瀏覽器解析渲染，將豐富多彩的網頁呈現我們眼前如果我們把網際網路比作一張大的蜘蛛網，資料便是存放於蜘蛛網的各個節點，而爬蟲就是乙隻小蜘蛛，使用者獲取網路資料的方式方式...

1 什麼是爬蟲？網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式原則上,只要是瀏覽器客戶端能做的事情，爬蟲都能夠做 2 爬蟲的本質模擬瀏覽器開啟網頁，獲取網頁中想要的那部分資料瀏覽器開啟網頁的過程如下請求的...