去年寫的乙個簡單爬蟲, 爬去全書網的盜墓筆記的部分章節, **還是比較簡單的,但是現在看來還有很多小問題沒處理 ,鑑於只是第一次嘗試,保留下** 以後看看回想思路比較合適,就不再去完善**了。
import requests
from bs4 import beautifulsoup
class download(object):
def __init__(self):
self.target=''
self.href_list =
self.chapter_name=
self.num =0
self.head =
#用於獲取**目錄的url
def get_url(self):
self.req = requests.get(url=self.target,params='html',headers=self.head)
self.req.encoding = 'gbk'
self.html =self.req.text
self.bf_url=beautifulsoup(self.html)
self.div=self.bf_url.find_all('div',class_='clearfix')
self.div_a =beautifulsoup(str(self.div[1]))
self.a =self.div_a.find_all('a')
#刪除不要的章節!
self.num = len(self.a[:5])
for each in self.a[:5]:
def down_novel(self,herf):
self.url = requests.get(url=herf)
self.url.encoding='gbk'
self.url_text = self.url.text
self.url_bf =beautifulsoup(self.url_text)
self.url_bf_div =self.url_bf.find_all('div',class_='maincontenr')
self.url_bf_div_text= self.url_bf_div[0].text.replace('\xa0'*8,'\n\n')
def write(self):
with open('novel.txt', 'a', encoding='utf-8') as f:
f.write('\n')
f.writelines(self.url_bf_div_text)
f.write('\n\n')
if __name__ == '__main__':
dl = download()
dl.get_url()
for i in dl.href_list:
dl.down_novel(i)
dl.write()
靜態網頁爬蟲
我們通過 from bs4 import beautifulsoup 語句匯入 beautifulsoup,然後使用 beautifulsoup res.text,html.parser 語句將網頁源 的字串形式解析成了 beautifulsoup 物件。建立 beautifulsoup 物件時需要...
網頁爬蟲 靜態網頁《一》
一 通過jsoup請求獲取 網頁審查元素。eg request path document doc jsoup.connect request path get 二 檢視需要扣取資料的標籤,通過日誌輸出 doc的body。eg log.v tag,body doc.body 三 檢視列印的日誌,找到...
python爬蟲 2 靜態網頁抓取
獲取響應內容 import requests r requests.get print 文字編碼 r.encoding 伺服器使用的文字編碼 print 響應狀態碼 r.status code 檢測響應的狀態碼,200為成功,4xx為客戶端錯誤,5xx為伺服器錯誤響應 print 字串方式的響應體 ...