GO 並的爬取捧腹的段子

2022-08-31 01:24:10 字數 1688 閱讀 1506

位址的規律

//第一頁:

//第二頁:

//第三頁:

//檢視每個頁面的原始碼,可以看到標題的「

`)

if re1 ==nil

//取內容

tmptitle := re1.findallstringsubmatch(result, 1)//

因為我只過濾第乙個內容

for _, data :=range tmptitle

//取關鍵資訊,內容

re2 := regexp.mustcompile(`class="

content-txt pt10

">(?s:(.*?))"

prev

" href="

`)if re2 ==nil

//取內容

tmpcontent := re2.findallstringsubmatch(result, -1

)

for _, data :=range tmpcontent

return

}func storejoytofile(i

int, filetitile, filecontent string

) defer f.close()

//寫內容

n :=len(filetitile)

for i := 0; i < n; i++

}func spiderpage(i

int, page chan <- int

)

"r = ", result)

//取內容re := regexp.mustcompile(`class="

dp-b

">"

(.*?)"`)

if re ==nil

//解析表示式、並取關鍵資訊

joyurls := re.findallstringsubmatch(result, -1

) filetitle := make(string, 0

) filecontent := make(string, 0

)

"url = ", joyurls)

//取**,遍歷後第乙個返回下標,這裡不要,第二個返回內容

for _, data :=range joyurls

"title = #%v#\n", title)

//使用這種方式列印就能看到結果裡是否包含一些空格

"content = #%v#\n", content)

將所有的標題放在乙個切片裡

將所有的內容放在乙個內容裡

}

//將內容寫入到檔案

storejoytofile(i, filetitle, filecontent)

page

<- i //

告訴程式是哪一頁爬完了

}func dowork(start, end

int)

for i:=start; i<=end; i++

}func main()

java爬取捧腹網段子

先上效果圖 準備工作 建立http連線 public static string connect string address catch exception e finally catch exception e return stringbuffer.tostring 用於將內容寫入到磁碟檔案 ...

用Go語言 正則,爬取資料,槓桿的!

出處 字元 數量限定 其他 方法 引數正則字串,返回值 regexp str regexp.mustcompile string 引數要查詢的資料,查詢次數 1為全域性,返回值二維陣列,查詢出的字串 正則字串 var result string str.findallstringsubmatch d...

我的第乙個爬蟲(爬取糗百的段子)

coding utf8 import requests from bs4 import beautifulsoup import os import codecs import mysqldb def mysql title conn mysqldb.connect host 127.0.0.1 p...