python3爬蟲筆記

2021-10-08 18:15:57 字數 1452 閱讀 2361

**請求**並提取**資料的 **自動化**程式

發起請求

獲取響應內容

解析文字內容

儲存資料

1. 瀏覽器傳送資訊給該**所在的伺服器,這個過程叫做http request。

2. 服務收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應的處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。

3.瀏覽器收到伺服器的response資訊後,會對資訊進行相應處理,然後展示。

request分為4部分

請求方法

請求的**

請求頭:請求頭,用來說明伺服器要使用的附加資訊,比較重要的資訊有cookie 、referer 、user-agent 等。 下面簡要說明一些常用的頭資訊

請求體:請求體-般承載的內容是post 請求中的表單資料,而對於get 請求,請求體則為空。

響應狀態碼

響應頭:響應頭包含了伺服器對請求的應答資訊,如con tent-type 、server 、set- co oki e 等。

響應體:最重要的當屬響應體的內容了。響應的正文資料都在響應體中,比如請求網頁時,它的響應體就 是網頁的html **; 請求一張時, 它的響應體就是的二進位制資料。我們做爬蟲請求網頁後, 要解析的內容就是響應體

網頁文字:如html、json格式文字

:獲取到的是二進位制檔案,儲存為格式

其他:只要是能請求到的,都能獲取

直接處理

json解析

正規表示式

beautiful soup

pyquery

xpath

import requests

response = requests.get(

'')print

(response.status_code)

with

open

('res.txt'

,'w'

,encoding=

'utf-8'

)as f:

f.write(response.text)

f.close(

)# 輸入鏈結,拿到的只是瀏覽器資料中的第乙個,而其他的資料是通過js發ajax請求得到的資料,再對dom進行從新渲染。才是看到的網頁資料。

分享ajax請求

selenium/webdriver驅動乙個瀏覽器模擬載入網頁

splash

pyv8、ghost.py

文字,純文字、json、xml

關係型資料庫

非關係型資料庫

python3爬蟲學習筆記

爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...