爬取多個頁面的資料

2021-08-14 18:05:59 字數 882 閱讀 5423

**如下:

# -*- coding:utf8 -*-

#匯入requests庫,取別名res

import requests as res

#匯入bs4包,取別名bs

from bs4 import beautifulsoup as bs

#匯入資料庫驅動包

import mysqldb

#宣告頁面從哪開始

j = 1

#迴圈遍歷每個頁面

while j <= 111:

##獲取目標**的網頁

#r代表將「」內的所有內容都預設為字串

path = r"" + str(j) + ".html"

#請求獲取目標網頁的html

doc = res.get(path)

#準備要爬取資料的列表

names =

imgs =

#需要bs解析器去解析網頁

text = bs(doc.text,"html.parser")

#從網頁中查詢類標籤名為plist的下標為0的所有內容

p1 = text.select(".plist")[0]

#從類標籤名為plist的下標為0的html中查詢標籤為li的內容中的img中所有內容

img = text.select("li img")

#宣告變數作為下標,並初始化

i = 0

#---------------爬取資料結束---------------

#---------------資料寫入資料庫----------------

#連線mysql資料庫中的pachong資料庫

#connect("主機名","使用者

requests爬蟲爬取頁面資料

新建檔案test.py,寫入一下 import requests 通過pip install requests安裝 from bs4 import beautifulsoup 通過pip install bs4安裝 import re 安裝了python就有了re模組 import json 安裝了...

爬蟲學習之動態載入的頁面的爬取

selenium安裝及環境搭建 首先我們通過url來解析頁面,再對頁面的資訊進行爬取 引入必要的包 from selenium.webdriver import firefox from selenium.webdriver.firefox.options import options 通過spid...

Python爬取中文頁面的時候出現的亂碼問題 續

在這一篇裡面我做乙個總結 1 首先應該看乙個案例 我把資料寫在.py檔案中 coding utf 8 s hehe測試中文字元 ss u hehe測試中文字元 uu s.decode utf 8 print s 輸出亂碼 print uu 正常 print ss 正常 這裡需要對中文資料進行編碼,輸...