requests爬蟲爬取頁面資料

2021-10-19 11:11:03 字數 725 閱讀 3359

新建檔案test.py,寫入一下**

import requests#通過pip install requests安裝

from bs4 import beautifulsoup#通過pip install bs4安裝

import re#安裝了python就有了re模組

import json#安裝了python就有了json模組

response = requests.get('')

home_page = response.content.decode()#content是二進位制資料,需要進行解碼

soup = beautifulsoup(home_page,'lxml')#通過pip install lxml安裝

script = soup.find(id='getareastat')

text = re.findall(r'\[.+\]',script.string)[0]

with open('data.json','w',encoding='utf-8') as fp:#encoding和ensure_ascii解決中文亂碼

json.dump(json.loads(text),fp,ensure_ascii=false)#json.loads把json格式的字串轉為python型別;json.dump以json格式儲存

在命令列中執行python test.py,就會在當前目錄得到你要的json檔案

python爬蟲 Requests庫爬取實戰(三)

我們先開始最簡單的抓取頁面,import requests 匯入requests庫 url try r requests.get url 通過requests庫的get方法 r.raise for status 判斷返回的狀態碼是否為200,不是200返回異常 print r.text 輸出網頁的源...

requests爬取小說

1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存 將國風中文網制定頁的 的題目 作者 最近更新章節和時間抓取下來儲存到本地 小夥伴們,今天我們用的利劍是requests xpath 第一步 匯入模組 import requests from lxml import etree im...

爬蟲筆記 Requests庫的應用(網頁爬取)

上次介紹了requests庫的一些引數和函式,今天我給大家介紹一些requests庫的小應用,所有學習都是基於 python網路爬蟲與資訊提取 對於requests這個庫來說,最主要的功能就是進行網頁的爬取,其實爬取的方式基本上都大致相同,所以在這裡我們介紹一種網頁爬取框架 爬取網頁通用 框架 im...