爬蟲初探 豆瓣書籍名稱爬取

2022-09-18 07:36:30 字數 1165 閱讀 7931

給定需求:利用python爬蟲爬取豆瓣網的程式設計類首頁書籍的名稱並列印出來

問題分析:分三步驟實現獲取網頁內容、提取資訊到列表中和輸出結果。

(1)步驟1:從網路上獲取程式設計書籍網頁內容

(2)步驟2:提取網頁內容中的書籍名稱資訊到列表中

(3)步驟3:利用資料結構展示並輸出結果

**實現:

1

import

requests

2from bs4 import

beautifulsoup34

defgethtmltext(url):

5try

:6 kv =

7 r = requests.get(url,headers=kv)

8r.raise_for_status()

10return

r.text

11except:12

return

"產生異常"13

14def

fillbooklist(blist,html):

15 soup = beautifulsoup(html,"

html.parser")

16for i in soup.find_all('a'

):17

if i.get('

title

') ==none:

18pass

19else

:title'))

2122

defprintbooklist(blist,num):

23print("

{}".format("

圖書名稱"))

24for i in

range(num):

25 b =blist[i]

26print("{}"

.format(b))

2728

defmain():

29 binfo =

30 url = "

"31 html =gethtmltext(url)

32fillbooklist(binfo,html)

33 printbooklist(binfo,20)

3435 main()

爬取豆瓣讀書的書籍(一)

環境準備 python3 pycharm 2018.3.4 x64 google chrome瀏覽器 爬取豆瓣讀書書籍的基本步驟 1 在pycharm中匯入urllib模組的request 2 獲取豆瓣讀書網的url資訊和user agent 3 用urlopen開啟 並傳送請求 4 用urlret...

爬蟲 豆瓣電影爬取案例

直接上 僅供參考。目標爬取資料是某地區的 正在上映 部分的資料,如下圖 完整 如下 usr bin python coding utf 8 from lxml import etree import requests 目標 爬取豆瓣深圳地區的 正在上映 部分的資料 注意點 1 如果網頁採用的編碼方式...

Python爬蟲 爬取豆瓣電影(二)

檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...