Python爬蟲爬取網路小說

2021-10-18 02:33:31 字數 1772 閱讀 1683

('《太古神王》.txt'

,'a'

,encoding=

'utf-8'

,errors=

'ignore')i=

1while i<=

2062

: single_web=web_file.readline(

).replace(

'\n',''

) url=

""+single_web

print

(url)

header=

data=requests.get(url=url,headers=header)

data.encoding =

"gb18030"

html=data.text

#print(html)

soup=beautifulsoup(html,

"lxml"

) lis=soup.find(name=

"div"

,attrs=

)print

(i)print

(f"第章\n"

//在b中檢索a的出現次數並刪除//

intreplacestr

(char

*a,char

*b);

//在b中檢索a的出現次數並刪除//

intmain()

fclose

(fp1)

;fclose

(fp2)

;return0;

}int

replacestr

(char

*a,char

*b)//在b中檢索a的出現次數並刪除// if(

strcmp

(a,temp)==0

)}}// puts(b);

return count;

}int

chinesestrfind

(char

*a,char

*b)//在b中檢索a的出現次數並刪除// if(

python爬蟲爬取網路小說

首先,獲取html頁面並解析,為方便儲存和使用頁面的encoding,直接使用全域性變數 章節名章節名 章節名.從結構可以看出,可以先獲取目錄的頂層標籤 class box 的標籤 然後再獲取該標籤內所有的li標籤即可。由於頁面內有其他的class box 的標籤,因此本次使用soup.find s...

python爬蟲爬網路小說

最近閒的蛋疼想看一些爽文 於是只能自己來爬一篇完整版的 進第一章,檢視源 發現 內容在.裡面 爬內容分了兩步 先爬.裡面的,再爬裡面的。但是不能只爬一章,還要繼續爬,找下一章的鏈結,在下一章裡面 還要爬標題,在裡面 於是分了四個正規表示式 story pattern1 re.compile r re...

利用Python爬取網路小說(基礎)

1.通過requests庫獲取網頁內容 2.通過beautifulsoup庫解析網頁內容 3.在 原始碼裡找到要爬取的內容 4.成功 ps 建議還是學一部分網頁知識之後再來學爬蟲更好理解一些 import requests import bs4 from bs4 import beautifulso...