Python 爬蟲初次實戰 Zeno

2021-10-09 05:54:42 字數 1620 閱讀 5939

一直都說想學爬蟲,前兩天就開始認真在b站看了一下爬蟲,其實之前也看過一點,但是之前看的那個是用urllib的 用起來就比較麻煩.然後這次在b站找到的乙個還不錯,直接奉上鏈結吧:

到目前為止看到了bs4的實戰(其實還沒有開始看這一集), 因為看了前面的requests 正則 bs4的簡單的基礎內容之後,我覺得我可以完成這一集的實戰內容,就利用中午休息的時間完成了這一集的內容(可能效率會**慢了點)總的來說還算是成功的.走了走了繼續看爬蟲了

以下就是爬取三國演義所有內容的**:

# 需求: 爬取三國演義**所有的章節標題和章節內容

import requests

from bs4 import beautifulsoup

import os

ifnot os.path.exists(

'./三國演義'):

os.mkdir(

'./三國演義'

)url =

''headers =

# a標籤鏈結儲存列表

list_link =

# 頁面提取 -> obj

list_page = requests.get(url=url, headers=headers)

.text

soup = beautifulsoup(list_page,

'lxml'

)# 提取所有a標籤

list_a = soup.select(

'.book-mulu a'

)# 遍歷a標籤並提取鏈結儲存

for i in

range

(len

(list_a)):

article_page = requests.get(url=

''+ soup.select(

'.book-mulu a'

)[i]

['href'],

headers=headers)

.text # 獲取目錄得到的內容頁鏈結

article_soup = beautifulsoup(article_page,

'lxml'

) title = article_soup.find(

'h1'

).get_text(

)# 定位標題並提取文字

title = title +

'.txt'

# 建立txt檔名

article = article_soup.find(

'div'

, class_=

'chapter_content'

).get_text(

)# 定位內容並提取文字

article_path =

'./三國演義/'

+ title # 設定儲存路徑

# 持久化儲存

with

open

(article_path,

'w', encoding=

'utf-8'

)as fp:

fp.write(article)

print

(title,

)print

('over!!!'

)

python爬蟲框架Pyspider初次接觸

我分別在linux window上都安裝過pyspider,window上貌似有問題。以下是我改寫的一段 usr bin env python encoding utf 8 created on 2018 04 18 07 17 21 project emeraldinsight from pysp...

python爬蟲實戰

python python基礎 python快速教程 python學習路線圖 python大資料學習之路 python爬蟲實戰 python pandas技巧系 量化小講堂 python機器學習入門資料梳理 學習群 大資料 python資料探勘2 323876621 r r語言知識體系 怎樣學習r ...

Python爬蟲實戰(二)

實驗介紹 本實驗通過使用beautifulsoup方法對網頁進行簡單的爬取工作,並對beatifulsoup方法進行簡單的介紹。beautifulsoup開發手冊 示例網頁如下 實驗內容 從本地網頁爬取商品資訊,商品名,評分等級等相關資訊 實驗 from bs4 import beautifulso...