通用小說爬蟲思路及JAVA實現

2021-09-12 23:59:28 字數 1355 閱讀 9776

前面不是寫了個**爬蟲嗎,然後就覺得維護起來比較麻煩。

想弄乙個通用的經過我的構想,覺得還是用正則匹配才行。

首先用正則提取了正文,記過我在多個**的測試,已經差不多可以適配大多數了

貼下正則

//正則抓取內容

@test

void

test12()

catch

(exception e)

pattern compile = pattern.

compile

("[pvr/\"]>[^字\\w<*][\\pp\\w\\pn\\pl\\pm"

+unicode_azaz09+chinese+ch_punctuation

+"][^字\\w>]();

matcher m=compile.

matcher

(html)

;while

(m.find()

);",""

).replace

("\n",""

).replace(",

"\n").

replace

("/>",""

).replace

("r>",""

).replace

(" ",""

).replace("

,"").

replace

("v>",""

).replace

("\">",""

).replace

(" ",""

).trim()

;if(restring.

length()

>0)

}}

基本實現了提取**正文的功能,然後就是提取**目錄鏈結了

//抓chapter

@test

void

testencode()

catch

(exception e)

pattern compile = pattern.

compile

("\<\a href=\"([\\w./-]+?)\".*?>(["

+chinese+

" \\d\\pp]+?));

matcher m=compile.

matcher

(html)

;while

(m.find()

)}}

這個提取沒有正文那麼精細了,還可以改進

這樣就基本實現了,給乙個**目錄就可以爬取整本**的目的

這是我的思路,就是匹配漢字來篩選正文

匹配a標籤加標題來實現目錄鏈結提取

實現爬蟲的思路

網路爬蟲通過程式模擬瀏覽器請求站點的行為,把 返回的資料爬到本地,提取自己需要的資料,儲存起來使用。爬蟲構成 1 確定目標 2 解析目標 的資料資訊 3 程式模擬使用者發出http請求獲取資料 4 從獲取的資料中儲存到本地,刪選需要的相關資料 5 對獲取到的資料根據自己的需求使用 注意一般做爬蟲都會...

go自己實現的《餘罪》小說爬蟲

最近在看go的東西,看了官方的教程,看書看不下去。想著還是通過實踐來學習吧,於是決定寫個小專案。之前python入門就是用的爬蟲,這次也想這麼幹。看了別人的 很多用第三方的 覺得不好,決定自己實現。發現go很適合自己造輪子,其實自己造輪子學到的更多,不是嗎?1 採用生產者 消費者模型。生產者解析章節...

JAVA 實現網路爬蟲

class bde image src width 560 height 314 pic type 0 public class task implements runnable override public void run image.write buf,0,len 儲存到本地 image.c...