BeautifulSoup bs4 爬蟲例項

2022-08-14 13:18:14 字數 1036 閱讀 8318

需求:使用bs4實現將詩詞名句**中三國演義**的每一章的內容爬去到本地磁碟進行儲存 

1

from

bs4 import beautifulsoup

2import requests

34 url = '

'5 headers =

89 page_text = requests.get(url=url,headers=headers).text

1011

#解析:章節的標題 詳情頁的url

12 soup = beautifulsoup(page_text,'

lxml')

13 li_list = soup.select('

.book-mulu > ul > li')

14 fp = open('

./xiaoshuo.txt

','w

',encoding='

utf-8')

15for li in

li_list:

16 title = li.a.string

17 detail_url = '

'+li.a['

href']

1819

#對詳情頁發起請求

20 detail_page_text = requests.get(url=detail_url,headers=headers).text

21 soup = beautifulsoup(detail_page_text,'

lxml')

22#返回的文字內容是一整個字串資料

23 text = soup.find('

div',class_='

chapter_content

').text

2425 fp.write(title+"

\n"+text)

26fp.close()

27 print('

over!!!

')

爬蟲**

Python 爬蟲 xpath bs4 re小實戰

1 爬取糗事百科 前5頁 利用正規表示式 2import requests 請求資料 4from urllib import request 5import re 正則6 糗事百科 位址7 普通get請求獲取 8 k 0 9for i in range 1,6 10 url f 11 ua偽裝防止識...

python爬蟲實訓報告 python爬蟲實習?

看到問題,挺感慨的。我是化工碩士,現在轉行在做爬蟲。基本一路都是自學,也遇到過你所說的 哭 的時候,能 哭,無非就是知識積累不夠,又無從尋找答案,那怎麼辦呢?一 補基礎咯。說到爬蟲,無非就是怎麼從網頁抓取資料,那你肯定要知道web是怎麼回事,當你發出乙個網路請求的時候,都發生了什麼?當你需要登入的時...

python爬蟲之re requests實戰

錯誤如下 但是第一次爬取就可以,有大佬可以指導一下 如下 encoding utf 8 import requests import re import time def gethtml1 url bs r requests.get url,headers bs,timeout 60 pattern...