小說頁面爬蟲抓取問題

2022-07-11 12:57:15 字數 614 閱讀 5722

今天在抓取的時候,試了很多次**都抓不出資料和文字,一直在提示我fand_all找不到目標屬性,後來修改了自己的函式代稱進行執行抓取

雖然成功了,但是卻把整個**頁面的資料和文字給全部抓取了下來

,雖然解決了之前的問題,但是這些資料太過於雜亂無法獲取該有的作用,目前思路還是有點混亂,還是需要對**進行改進,應該修改到可以抓到自己想要的資料才行。

更新下部落格呀,昨天的問題呢已經解決了,是因為班級裡的某個憨憨告訴我在這個地方加上print可以輸出

這裡呢確實可以輸出自己的抓取資料,但是這裡呢是乙個函式開始,所以輸出的呢就是網頁的全部內容,正確的輸出位置應該在自己所抓取資訊之後輸出。

這樣就能檢視自己抓取的資料了。

python 爬蟲,抓取小說

coding utf 8 from bs4 import beautifulsoup from urllib import request import re import os,time 訪問url,返回html頁面 defget html url req request.request url ...

Python抓取小說

這個指令碼命令mac在抓取 寫,使用python它有幾個碼。coding utf 8 import re import urllib2 import chardet import sys from bs4 import beautifulsoup import codecs class spider...

靜態頁面的抓取(學習簡單爬蟲)

聖誕節快樂 3 在這個半放假的日子裡,人也變得慵懶起來,在mooc下學習了靜態頁面的簡單爬蟲 傳送門 乾貨滿滿啊 所以爬了乙個羋月傳麼麼噠 有些小的細節沒有做好,所以在除錯上費了不少的功夫,還是太粗心了t t 需要說明的一點是,跟著老師的 當寫入到output.html中出現了亂碼,但是寫到outp...