爬蟲的定向爬取與垂直搜尋

2022-03-14 01:08:23 字數 607 閱讀 9556

定向爬蟲是網路爬蟲的一種。

定向爬蟲

定向爬蟲可以精準的獲取目標站點資訊。

定向爬蟲獲取資訊,配上手工或者自動的模版進行資訊匹配,將資訊進行格式化分析儲存。

優勢:基於模版的資訊提取技術,能提供更加精準的資訊。比如**,房屋面積,時間,職位,公司名等等。

劣勢:目標**難以大面積覆蓋,因為基於模版匹配的資訊提取技術,需要人工的參與配置模版,欲要大面積覆蓋各個目標**,需要大量的人力成本,同樣維護模板也需要很大的人力成本。

也就是說定向爬取就是我們要針對不同的網頁構建不同的網頁模板,比如針對bbs就要構建與bbs相同的網頁模板,讓爬蟲定向的蒐集某個網頁塊內的資訊。對於問答**就更是如此了。問答**,一般都有提問塊和回答塊,如果我們能夠建立模板專門的爬取這兩個塊,無疑將會在效率和準確度上更上一層樓。

垂直搜尋

垂直搜尋是針對某一方面的定向搜尋,比如汽車、房子、衣物等等方面的單方面搜尋,相對於一般搜尋引擎的廣度搜尋,更專業性。而我們要做的專案是關於計算機方面知識的問答**,只需要搜尋爬取相應方面的知識就夠了。應該說我們是乙個基於深度的搜尋。老師也給了我們一些高校的教學資源**,我們只要能夠將這些**上的所有鏈結深度爬取,應該也能夠獲取大量專業性的資源。

參考資料:

python 爬取網頁排名定向爬蟲(6)

定義 定向爬蟲可以精準的獲取目標站點資訊。僅對輸入url進行爬取,不拓展爬取。中國的大學排名爬取 1 檢視網頁是否對爬蟲有限制 1.檢視 robots.txt 無robots.txt檔案說明無爬蟲限制 2.檢視原網頁 要提取的資訊被封裝在html內 2.程式的結構設計 步驟1 從網路上獲取大學排名網...

048 爬蟲案例 360搜尋資訊爬取

需求分析 對360搜尋頁面分析,刪去不必要的引數資訊,可得出其搜尋url為 搜尋內容根據搜尋關鍵字返回相應的整個完整的搜尋結果頁面資訊 主要流程 將獲得的頁面資訊儲存至本地 html 檔案中,注意寫入方式!使用者 設定 response requests.get url,params params,...

爬蟲篇 部落格園搜尋爬取

寫入sql server資料庫,如下 import requests from lxml import etree import pymssql import time 連線sql server資料庫 conn pymssql.connect host 127.0.0.1 user sa passw...