初學go語言開發第乙個爬蟲專案

2021-09-23 15:23:24 字數 1475 閱讀 2380

//讀取網頁內容

buf := make(byte, 4*1024)

for

result += string(buf[:n])

} return

}func spideronejoy(url string) (title, content string, err error)

re := regexp.mustcompile(``)

if re == nil

tmptitle := re.findallstringsubmatch(result, 1)//1過濾乙個

for _, data := range tmptitle

//取內容:

re = regexp.mustcompile(`(?s:(.*?))if re == nil

tmpcontent := re.findallstringsubmatch(result, -1)

for _, data := range tmpcontent

return

}func storejoytofile(i int, filetitle, filecontent string)

defer f.close()

len := len(filetitle)

//往檔案裡寫內容

for i := 0; i < len; i++

}func spiderpage(i int, page chan int)

//取內容,re := regexp.mustcompile(`if re == nil

//取關鍵資訊

joyurls := re.findallstringsubmatch(result, -1)

// 切片

filetitle := make(string, 0)

filecontent := make(string, 0)

//第乙個返回下標,第二個返回值

for _, data := range joyurls

} // 寫成檔案

storejoytofile(i, filetitle, filecontent)

page <- i//爬完之後,將頁編號加入通道

}func dowork(start, end int)

// 記住一定要單獨接收管道訊息!!!

for i := start; i <= end; i++

}func main()

02 第乙個爬蟲專案

雖然是採用cmd命令來建立,但是可以通過scrapy h來查詢相關的子命令,最後可以通過scrapy startproject douban方式來建立專案 c users administrator desktop scrapy h scrapy 1.7 3 no active project us...

第一Python第乙個爬蟲專案

完整程式碼 import urllib.request url headers req urllib.request.request url url,headers headers response urllib.request.urlopen req print response.read dec...

第乙個爬蟲

很多人學習python的目的就是為了學習能夠實現爬蟲的功能,這裡,我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立,和執行。1,第一步是安裝scrapy,我相信到了這一步,大多數人都已經會安裝第三方庫檔案了,這裡主要是使用命令pip install sc...