Python爬取小說 2 單章節爬取

2021-10-01 22:05:49 字數 982 閱讀 8092

#coding = utf-8

#urlopen:開啟**

#request:請求

from urllib.request import urlopen,request

#匯入gzip包:解壓gzip

#封裝請求

req = request(url=path,headers=headers)

#開啟鏈結

conn = urlopen(req)

#判斷是否正常開啟

if conn.code == 200:

#獲取資料

data = conn.read()

#print(type(data))

data = gzip.decompress(data).decode("utf-8")

#轉換編碼格式 (如果沒有經過gzip格式壓縮,用這個)

# data = data.decode(encoding="utf-8")

html = etree.html(data)

#獲取對應節點內容 如獲取乙個id為content的div的內容區的內容

text = html.xpath("//div[@id='content']/text()")

#整理字串格式

text = "".join(text)

#去除行

text = text.split()

#拼接text = "\n".join(text)

print(text)

else:

print("**有問題")

用python爬取小說章節內容

在學爬蟲之前,最好有一些html基礎,才能更好的分析網頁.主要是五步 1.獲取鏈結 2.正則匹配 3.獲取內容 4.處理內容 5.寫入檔案 如下 匯入相關model from bs4 import beautifulsoup import requests import re 獲取目標鏈結位址 ur...

用python爬取小說章節內容

在學爬蟲之前,最好有一些html基礎,才能更好的分析網頁.主要是五步 1.獲取鏈結 2.正則匹配 3.獲取內容 4.處理內容 5.寫入檔案 如下 匯入相關model 2from bs4 import beautifulsoup 3import requests 4importre5 6 獲取目標鏈結...

Python爬取小說

感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...