BeautifulSoup bs4 爬蟲例項

需求：使用bs4實現將詩詞名句**中三國演義**的每一章的內容爬去到本地磁碟進行儲存

1
from
bs4 import beautifulsoup
2import requests
34 url = '
'5 headers =
89 page_text = requests.get(url=url,headers=headers).text
1011
#解析：章節的標題 詳情頁的url
12 soup = beautifulsoup(page_text,'
lxml')
13 li_list = soup.select('
.book-mulu > ul > li')
14 fp = open('
./xiaoshuo.txt
','w
',encoding='
utf-8')
15for li in
li_list:
16 title = li.a.string
17 detail_url = '
'+li.a['
href']
1819
#對詳情頁發起請求
20 detail_page_text = requests.get(url=detail_url,headers=headers).text
21 soup = beautifulsoup(detail_page_text,'
lxml')
22#返回的文字內容是一整個字串資料
23 text = soup.find('
div',class_='
chapter_content
').text
2425 fp.write(title+"
\n"+text)
26fp.close()
27 print('
over!!!
')

爬蟲**

Python 爬蟲 xpath bs4 re小實戰

1 爬取糗事百科前5頁利用正規表示式 2import requests 請求資料 4from urllib import request 5import re 正則6 糗事百科位址7 普通get請求獲取 8 k 0 9for i in range 1,6 10 url f 11 ua偽裝防止識...

python爬蟲實訓報告 python爬蟲實習？

看到問題，挺感慨的。我是化工碩士，現在轉行在做爬蟲。基本一路都是自學，也遇到過你所說的哭的時候，能哭，無非就是知識積累不夠，又無從尋找答案，那怎麼辦呢？一補基礎咯。說到爬蟲，無非就是怎麼從網頁抓取資料，那你肯定要知道web是怎麼回事，當你發出乙個網路請求的時候，都發生了什麼？當你需要登入的時...

python爬蟲之re requests實戰

錯誤如下但是第一次爬取就可以，有大佬可以指導一下如下 encoding utf 8 import requests import re import time def gethtml1 url bs r requests.get url,headers bs,timeout 60 pattern...

BeautifulSoup bs4 爬蟲例項

Python 爬蟲 xpath bs4 re小實戰

python爬蟲實訓報告 python爬蟲實習？

python爬蟲之re requests實戰

相關推薦