爬蟲的定向爬取與垂直搜尋

定向爬蟲是網路爬蟲的一種。

定向爬蟲

定向爬蟲可以精準的獲取目標站點資訊。

定向爬蟲獲取資訊，配上手工或者自動的模版進行資訊匹配，將資訊進行格式化分析儲存。

優勢：基於模版的資訊提取技術，能提供更加精準的資訊。比如**，房屋面積，時間，職位，公司名等等。

劣勢：目標**難以大面積覆蓋，因為基於模版匹配的資訊提取技術，需要人工的參與配置模版，欲要大面積覆蓋各個目標**，需要大量的人力成本，同樣維護模板也需要很大的人力成本。

也就是說定向爬取就是我們要針對不同的網頁構建不同的網頁模板，比如針對bbs就要構建與bbs相同的網頁模板，讓爬蟲定向的蒐集某個網頁塊內的資訊。對於問答**就更是如此了。問答**，一般都有提問塊和回答塊，如果我們能夠建立模板專門的爬取這兩個塊，無疑將會在效率和準確度上更上一層樓。

垂直搜尋

垂直搜尋是針對某一方面的定向搜尋，比如汽車、房子、衣物等等方面的單方面搜尋，相對於一般搜尋引擎的廣度搜尋，更專業性。而我們要做的專案是關於計算機方面知識的問答**，只需要搜尋爬取相應方面的知識就夠了。應該說我們是乙個基於深度的搜尋。老師也給了我們一些高校的教學資源**，我們只要能夠將這些**上的所有鏈結深度爬取，應該也能夠獲取大量專業性的資源。

參考資料：

爬蟲的定向爬取與垂直搜尋

python 爬取網頁排名定向爬蟲（6）

048 爬蟲案例 360搜尋資訊爬取

爬蟲篇部落格園搜尋爬取

爬蟲的定向爬取與垂直搜尋

python 爬取網頁排名定向爬蟲（6）

048 爬蟲案例 360搜尋資訊爬取

爬蟲篇 部落格園搜尋爬取

相關推薦

爬蟲篇部落格園搜尋爬取