go爬蟲設計併發版

在單機版的基礎上，將耗時最長，等待時間做多的進行併發，也就是fetch模組

fetch的輸出就是parse的輸入，也就是可以把fetch和parse合成乙個模組－－ worker模組

}然後worker這一塊，就可以用併發來實現：

worker輸入是request，輸出是乙個request ＋ items

加入乙個scheduler，也就是對任務的排程器，簡單來講的就是engine原來把request交給任務列表，現在交給scheduler

按照這個併發結構，

併發版爬蟲的關鍵在於實現scheduler，怎麼把request進行分發

併發之後變快了，原因在於fetch操作是在worker裡進行的，而且是10個worker一起進行。

fetch操作結束後，parse會交給engine新的request，engine將request放在scheduler中，scheduler將等到有空閒的worker可以接受in通道的request。雖然10個worker公用乙個in通道，但是卻可以同時處理很多request。不需要等乙個request處理完了再處理下乙個

但是這種做法有乙個問題，那就是schedule必須等到有空閒的worker來接收scheduler寫入in通道的東西。但是有可能的問題是當從out中取出乙個結果時，對應要往in通道寫入多個。這就會導致in通道可能會一直等空閒的worker來讀而卡在那裡。如下，就會卡在那裡

func gofunc(in chan int, out chan int ) 
}() }}
func main()
}

解決的辦法就是：

go爬蟲設計併發版

GO 併發的網路爬蟲

GO寫網路爬蟲單任務版架構設計

go語言實現網路併發爬蟲

go爬蟲設計 併發版

GO 併發的網路爬蟲

GO寫網路爬蟲 單任務版架構設計

go語言實現網路併發爬蟲

相關推薦

go爬蟲設計併發版

GO寫網路爬蟲單任務版架構設計