搜尋引擎基礎 spider

spider又叫webcrawler或者robot，是乙個沿著鏈結漫遊web 文件集合的程式。它一般駐留在伺服器上，通過給定的一些url，利用http等標準協議讀取相應文件,然後以文件中包括的所有未訪問過的url作為新的起點，繼續進行漫遊，直到沒有滿足條件的新url為止。

深度優先搜尋是一種在開發爬蟲早期使用較多的方法。優點是能遍歷乙個web 站點或深層巢狀的文件集合；缺點是因為web結構相當深,，有可能造成一旦進去，再也出不來的情況發生。

robots協議（也稱為爬蟲協議、爬蟲規則、機械人協議等）也就是robots.txt，**通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取。robots協議是**國際網際網路界通行的道德規範，其目的是保護**資料和敏感資訊、確保使用者個人資訊和隱私不被侵犯。因其不是命令，故需要搜尋引擎自覺遵守。一些病毒如malware（馬威爾病毒）經常通過忽略robots協議的方式，獲取**後台資料和個人資訊。2023年8月，奇虎360被曝違反robots協議。