爬蟲的基本要求和考核標準

2022-03-23 19:44:53 字數 1140 閱讀 5975

需要包含以下基本功能:

(2)網頁抓全(解析正確,抓取合理)

將網際網路網頁抓全,是極大的挑戰,暗網暫且不提,就是明網抓全也不是容易的事情,新站發現,sitemap協議等用站長主動提交的支援等等。 

(3)網頁抓新(統計更新週期實時抓取)

網頁總在不斷變化中,如何當網頁變化後(更新,消亡)能夠及時更新,實時性和死鏈率等是表徵這方面工作的重要指標。 

(4)網頁重複抓取的避免(bloom過濾器、set查重)

為了及時捕捉網頁的更新,對同乙個**必須經常去抓取,同樣網路是乙個網狀結構,同乙個**可能被多次引用,這些都導致重複抓取的可能性,如果避免網頁抓重,同時控制合理的更新頻率,是非常關鍵的。 

(5)dns自動解析(dns自動解析系統)

如果抓取每個網頁都進行一次dns解析,那成本就太大了,維護乙個dns自動解析系統,可以大大降低網域名稱伺服器的負擔,且大大提高效率。 

(6)映象站點的識別(內容查重)

網頁內容相同,但網域名稱不同的情況比比皆是,其中映象站點的識別尤為關鍵。 

(7)抓取的優先順序調整(廣度優先、pagerank)

抓取佇列總是滿的,周而復始,但在抓取的時候會出現,重要的,緊急的,不重要的,不緊急的內容,如何處理好排隊的關係尤為重要,是單獨開闢綠色通道,還是將其排隊號前提都是需要細心打磨的。 

(8)抓取深度控制(記錄從種子url開始解析出的每個url的深度)

鏈結展開的深度控制,避免出現單個站點過分抓取,而使得其他站點持續飢餓

(9)多爬蟲的協作(多執行緒)

(11)死鏈、跳轉的識別和處理(http狀態返回碼識別轉移,死鏈?)

考核標準

(1)總有效的網頁數(單機)

(2)新站發現數(單機)

(3)無效抓取的網頁數(單機)

(4)映象站點數(單機)

(5)全**點的基本資訊(更新週期,死鏈率,錯誤率)

(6)重要網頁的抓取及時性(隨機抽取盲測)

(7)抓取穩定性,故障率等

**:

重寫的基本要求

訪問控制許可權 下級的訪問控制許可權應該不低於上級的訪問控制許可權 上級 public 下級 只能public 上級 protected 下級 protected,public 上級 private 下級 private protected public 實際此情況無意義。私有的不能覆蓋,而是完全當...

成功創業的基本要求

1 不說 不可能 2 凡事第一反應 找方法,不找藉口 3 遇到挫折對自己說聲 太好了,機會來了!4 不說消極的話,不落入消極的情緒,一旦發生立即正面處理 5 凡事先訂立目標 6 行動前,預先做計畫 7 工作時間,每一分 每一秒做有利於生產的事情 8 隨時用零碎的時間做零碎的事情 9 守時 10 寫點...

粒子特效的基本要求

1.同屏的粒子數量一定要控制在200以內,每個粒子的發射數量不要超過50個,不然在iphone4或者一些比較爛的android手機上就會有問題.2.儘量減少粒子的面積,面積越大就會越卡.3.粒子最好不要用alfa test 但是有的特效又不能不用,這個看美術吧 如下圖所示,粒子的貼圖用黑底的這種,然...