靜態網頁的爬蟲嘗試

去年寫的乙個簡單爬蟲，爬去全書網的盜墓筆記的部分章節， **還是比較簡單的，但是現在看來還有很多小問題沒處理，鑑於只是第一次嘗試，保留下** 以後看看回想思路比較合適，就不再去完善**了。

import requests
from bs4 import beautifulsoup
class download(object):
def __init__(self):
self.target=''
self.href_list = 
self.chapter_name=
self.num =0
self.head = 
#用於獲取**目錄的url
def get_url(self):
self.req = requests.get(url=self.target,params='html',headers=self.head)
self.req.encoding = 'gbk'
self.html =self.req.text
self.bf_url=beautifulsoup(self.html)
self.div=self.bf_url.find_all('div',class_='clearfix')
self.div_a =beautifulsoup(str(self.div[1]))
self.a =self.div_a.find_all('a')
#刪除不要的章節！
self.num = len(self.a[:5])
for each in self.a[:5]:
def down_novel(self,herf):
self.url = requests.get(url=herf)
self.url.encoding='gbk'
self.url_text = self.url.text
self.url_bf =beautifulsoup(self.url_text)
self.url_bf_div =self.url_bf.find_all('div',class_='maincontenr')
self.url_bf_div_text= self.url_bf_div[0].text.replace('\xa0'*8,'\n\n')
def write(self):
with open('novel.txt', 'a', encoding='utf-8') as f:
f.write('\n')
f.writelines(self.url_bf_div_text)
f.write('\n\n')
if __name__ == '__main__':
dl = download()
dl.get_url()
for i in dl.href_list:
dl.down_novel(i)
dl.write()

靜態網頁爬蟲

我們通過 from bs4 import beautifulsoup 語句匯入 beautifulsoup，然後使用 beautifulsoup res.text,html.parser 語句將網頁源的字串形式解析成了 beautifulsoup 物件。建立 beautifulsoup 物件時需要...

網頁爬蟲靜態網頁《一》

一通過jsoup請求獲取網頁審查元素。eg request path document doc jsoup.connect request path get 二檢視需要扣取資料的標籤，通過日誌輸出 doc的body。eg log.v tag,body doc.body 三檢視列印的日誌，找到...

python爬蟲 2 靜態網頁抓取

獲取響應內容 import requests r requests.get print 文字編碼 r.encoding 伺服器使用的文字編碼 print 響應狀態碼 r.status code 檢測響應的狀態碼，200為成功，4xx為客戶端錯誤，5xx為伺服器錯誤響應 print 字串方式的響應體 ...

靜態網頁的爬蟲嘗試

靜態網頁爬蟲

網頁爬蟲 靜態網頁《一》

python爬蟲 2 靜態網頁抓取

相關推薦

網頁爬蟲靜態網頁《一》