python爬蟲筆記(二)爬蟲原理

2021-08-18 16:31:28 字數 781 閱讀 5571

瀏覽器f12的html**中的資訊就是爬取的目標

瀏覽器傳送訊息(請求)到伺服器,這個過程叫http request

伺服器返回瀏覽器資訊,http response

瀏覽器處理資訊,展示

request

常用請求方式 get、post,post請求需要構造表單進行請求,資料不會暴露在url中

url統一資源定位符

請求頭html、json

ajax——json解析

注意下面的示例,python中 '\' 是轉義的含義,那麼

從windows資源管理器中直接複製位址會導致檔案寫入錯誤(路徑錯誤)[errno 22] invalid argument

import requests response = requests.get('') print(response.content) with open('c:\feigedownload\1.gif','wb')as f: f.write(response.content) f.close

import requests

response = requests.get('')

print(response.content)

with open('c:/feigedownload/1.gif','wb')as f:

f.write(response.content)

f.close

Python爬蟲 二 爬蟲原理

爬蟲就是請求 並提取資料的自動化程式。其中請求,提取,自動化是爬蟲的關鍵!下面我們分析爬蟲的基本流程 發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器響應 獲取響應內容解析內容 得到的內容可能是html,可以用正規表示式,頁面...

python之爬蟲(二)爬蟲的原理

在上文中我們說了 爬蟲就是請求 並提取資料的自動化程式。其中請求,提取,自動化是爬蟲的關鍵!下面我們分析爬蟲的基本流程 發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器響應 獲取響應內容解析內容 得到的內容可能是html,可以...

Python3爬蟲程式設計學習筆記(二)爬蟲原理

http是乙個簡單的請求 響應協議,它通常執行在tcp之上。它指定了客戶端可能傳送給伺服器什麼樣的訊息以及得到什麼樣的響應。請求和響應訊息的頭以ascii碼形式給出 而訊息內容則具有乙個類似mime的格式。這個簡單模型是早期web成功的有功之臣,因為它使得開發和部署是那麼的直截了當。引用csdn博主...