Golang 抓取網頁內容

2022-07-06 18:42:09 字數 801 閱讀 8604

今天寫個簡單的程式,根據指定的 url 來抓取相應的網頁內容,然後存入本地檔案。這個程式會涉及到網路請求和檔案操作等知識點,下面是實現**:

// 讀取資源資料 body: byte

body, err := ioutil.readall(res.body)

// 關閉資源流

res.body.close()

if err != nil

// 控制台列印內容 以下兩種方法等同

fmt.printf("%s", body)

fmt.printf(string(body))

// 寫入檔案

ioutil.writefile("site.txt", body, 0644)

}上面的**中,我們引入了 net/http 網路包,然後呼叫 http.get(url) 方法獲取 url 對應的資源,之後讀取出資源資料,然後在控制台列印,並將內容寫入到本地檔案中。

需要注意的是,在讀取資源資料完畢後,應該及時將資源流關閉,避免出現記憶體資源的洩露。

另外,在處理異常時,我們使用了 fm.fprintf() 這個方法,它是格式化三大方法之一:

$ ./fetch
執行完程式,在當前目錄中會生成乙個 site.txt 檔案。

Golang 併發抓取網頁內容

建立正則常量 var re regexp.mustcompile w w func main 開始時間 start time.now for url range urls 讀取資源資料 body,err ioutil.readall res.body 關閉資源 res.body.close if e...

網頁內容抓取

之前採用xpath和正規表示式對網頁內容進行抓取,發現在有的地方不如人意,就採用了htmlparser對頁面進行解析,抓取需要的東西。htmlparser有點不好的地方在於不能對starttag和endtag進行匹配。採用了兩種方法進行抓取。第一種,抓取成對的tag之間的內容,採用了queue.qu...

c 抓取網頁內容

新增的引用 using system.net using system.io using system.io.compression 1.webclient mywebclient new webclient mywebclient.credentials credentialcache.defau...