靜態網頁的爬蟲嘗試

2021-09-24 19:28:30 字數 1489 閱讀 3297

去年寫的乙個簡單爬蟲, 爬去全書網的盜墓筆記的部分章節, **還是比較簡單的,但是現在看來還有很多小問題沒處理 ,鑑於只是第一次嘗試,保留下** 以後看看回想思路比較合適,就不再去完善**了。

import requests

from bs4 import beautifulsoup

class download(object):

def __init__(self):

self.target=''

self.href_list =

self.chapter_name=

self.num =0

self.head =

#用於獲取**目錄的url

def get_url(self):

self.req = requests.get(url=self.target,params='html',headers=self.head)

self.req.encoding = 'gbk'

self.html =self.req.text

self.bf_url=beautifulsoup(self.html)

self.div=self.bf_url.find_all('div',class_='clearfix')

self.div_a =beautifulsoup(str(self.div[1]))

self.a =self.div_a.find_all('a')

#刪除不要的章節!

self.num = len(self.a[:5])

for each in self.a[:5]:

def down_novel(self,herf):

self.url = requests.get(url=herf)

self.url.encoding='gbk'

self.url_text = self.url.text

self.url_bf =beautifulsoup(self.url_text)

self.url_bf_div =self.url_bf.find_all('div',class_='maincontenr')

self.url_bf_div_text= self.url_bf_div[0].text.replace('\xa0'*8,'\n\n')

def write(self):

with open('novel.txt', 'a', encoding='utf-8') as f:

f.write('\n')

f.writelines(self.url_bf_div_text)

f.write('\n\n')

if __name__ == '__main__':

dl = download()

dl.get_url()

for i in dl.href_list:

dl.down_novel(i)

dl.write()

靜態網頁爬蟲

我們通過 from bs4 import beautifulsoup 語句匯入 beautifulsoup,然後使用 beautifulsoup res.text,html.parser 語句將網頁源 的字串形式解析成了 beautifulsoup 物件。建立 beautifulsoup 物件時需要...

網頁爬蟲 靜態網頁《一》

一 通過jsoup請求獲取 網頁審查元素。eg request path document doc jsoup.connect request path get 二 檢視需要扣取資料的標籤,通過日誌輸出 doc的body。eg log.v tag,body doc.body 三 檢視列印的日誌,找到...

python爬蟲 2 靜態網頁抓取

獲取響應內容 import requests r requests.get print 文字編碼 r.encoding 伺服器使用的文字編碼 print 響應狀態碼 r.status code 檢測響應的狀態碼,200為成功,4xx為客戶端錯誤,5xx為伺服器錯誤響應 print 字串方式的響應體 ...