python3爬蟲筆記

**請求**並提取**資料的 **自動化**程式

發起請求

獲取響應內容

解析文字內容

儲存資料

1. 瀏覽器傳送資訊給該**所在的伺服器，這個過程叫做http request。

2. 服務收到瀏覽器傳送的訊息後，能夠根據瀏覽器傳送訊息的內容，做相應的處理，然後把訊息回傳給瀏覽器。這個過程叫做http response。

3.瀏覽器收到伺服器的response資訊後，會對資訊進行相應處理，然後展示。

request分為4部分

請求方法

請求的**

請求頭:請求頭，用來說明伺服器要使用的附加資訊，比較重要的資訊有cookie 、referer 、user-agent 等。下面簡要說明一些常用的頭資訊

請求體:請求體－般承載的內容是post 請求中的表單資料，而對於get 請求，請求體則為空。

響應狀態碼

響應頭:響應頭包含了伺服器對請求的應答資訊，如con tent-type 、server 、set- co oki e 等。

響應體:最重要的當屬響應體的內容了。響應的正文資料都在響應體中，比如請求網頁時，它的響應體就是網頁的html **；請求一張時，它的響應體就是的二進位制資料。我們做爬蟲請求網頁後，要解析的內容就是響應體

網頁文字:如html、json格式文字

:獲取到的是二進位制檔案，儲存為格式

其他：只要是能請求到的，都能獲取

直接處理

json解析

正規表示式

beautiful soup

pyquery

xpath

import requests
response = requests.get(
'')print
(response.status_code)
with
open
('res.txt'
,'w'
,encoding=
'utf-8'
)as f:
f.write(response.text)
f.close(
)# 輸入鏈結,拿到的只是瀏覽器資料中的第乙個，而其他的資料是通過js發ajax請求得到的資料，再對dom進行從新渲染。才是看到的網頁資料。

分享ajax請求

selenium/webdriver驅動乙個瀏覽器模擬載入網頁

splash

pyv8、ghost.py

文字，純文字、json、xml

關係型資料庫

非關係型資料庫

python3爬蟲學習筆記

爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...

python3爬蟲實戰（3）

今天心血來潮去爬取了一下招聘的實時招聘資訊。是選的條件是北京，實習生，計算機軟體。分析之後發現還是很容易的，不過過程中出了不少小問題，在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後，tem ul bsoj.find ul 存下整個ul元素。對...

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊，作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單，環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯，因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...

python3爬蟲筆記

python3爬蟲學習筆記

python3爬蟲實戰（3）

python3 爬蟲入門

相關推薦