給定需求:利用python爬蟲爬取豆瓣網的程式設計類首頁書籍的名稱並列印出來
問題分析:分三步驟實現獲取網頁內容、提取資訊到列表中和輸出結果。
(1)步驟1:從網路上獲取程式設計書籍網頁內容
(2)步驟2:提取網頁內容中的書籍名稱資訊到列表中
(3)步驟3:利用資料結構展示並輸出結果
**實現:
1import
requests
2from bs4 import
beautifulsoup34
defgethtmltext(url):
5try
:6 kv =
7 r = requests.get(url,headers=kv)
8r.raise_for_status()
10return
r.text
11except:12
return
"產生異常"13
14def
fillbooklist(blist,html):
15 soup = beautifulsoup(html,"
html.parser")
16for i in soup.find_all('a'
):17
if i.get('
title
') ==none:
18pass
19else
:title'))
2122
defprintbooklist(blist,num):
23print("
{}".format("
圖書名稱"))
24for i in
range(num):
25 b =blist[i]
26print("{}"
.format(b))
2728
defmain():
29 binfo =
30 url = "
"31 html =gethtmltext(url)
32fillbooklist(binfo,html)
33 printbooklist(binfo,20)
3435 main()
爬取豆瓣讀書的書籍(一)
環境準備 python3 pycharm 2018.3.4 x64 google chrome瀏覽器 爬取豆瓣讀書書籍的基本步驟 1 在pycharm中匯入urllib模組的request 2 獲取豆瓣讀書網的url資訊和user agent 3 用urlopen開啟 並傳送請求 4 用urlret...
爬蟲 豆瓣電影爬取案例
直接上 僅供參考。目標爬取資料是某地區的 正在上映 部分的資料,如下圖 完整 如下 usr bin python coding utf 8 from lxml import etree import requests 目標 爬取豆瓣深圳地區的 正在上映 部分的資料 注意點 1 如果網頁採用的編碼方式...
Python爬蟲 爬取豆瓣電影(二)
檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...