golang爬蟲colly 抓取豆瓣前250電影

2021-10-07 08:27:21 字數 1202 閱讀 3769

工作中要用到一點爬蟲相關的,以前都是用python寫的,最近研究golang(主要是工作中一些api需要用golang),才在研究,後續研究完了有可能寫個整的文章,這次用colly爬去豆瓣電影 top250(好像所有爬蟲入門都是用這個**,感謝豆瓣),簡單記錄**如下,主要使用了colly和goquery

func

testcolly

(t *testing.t)

var datas [

]data

c := colly.

newcollector()

c.onresponse

(func

(r *colly.response)

dom.

find

("ol[class=grid_view]>li").

each

(func

(i int

, selection *goquery.selection)

d.title=selection.

find

("li>div>.info>div>a>.title").

first()

.text()

d.img,

_=selection.

find

("li>div>.pic>a>img").

attr

("src"

) d.href,

_=selection.

find

("li>div>.info>.hd>a").

attr

("herf"

) d.other=selection.

find

("li>div>.info>.hd>a>.other").

text()

datas=

(datas, d)})

fmt.

printf

("%s"

,datas[1]

)}) c.

onhtml

("div.item"

,func

(e *colly.htmlelement)

) c.

onrequest

(func

(r *colly.request)

) c.

visit

("")}

colly 分布式抓取 6

根據抓取任務的需求,可以以不同的方式實現分布式抓取。大多數情況下,擴充套件網路通訊層就足夠了,使用 和colly的 切換器可以很容易地實現這一點 當http請求分布在多個 之間時,使用 切換器進行抓取仍然是集中的。colly通過其 setproxyfunc 成員支援 切換。任何自定義函式都可以通過f...

抓取快訊爬蟲

usr bin env python coding utf 8 import urllib2 import re import time,datetime import pymysql.cursors import uuid class spider 金色財經快訊爬蟲類 classstr 類成員變數...

Golang 抓取網頁內容

今天寫個簡單的程式,根據指定的 url 來抓取相應的網頁內容,然後存入本地檔案。這個程式會涉及到網路請求和檔案操作等知識點,下面是實現 讀取資源資料 body byte body,err ioutil.readall res.body 關閉資源流 res.body.close if err nil ...