搜尋引擎基礎 spider

2021-06-09 13:23:01 字數 487 閱讀 2483

spider又叫webcrawler或者robot,是乙個沿著鏈結漫遊web 文件集合的程式。它一般駐留在伺服器上,通過給定的一些url,利用http等標準協議讀取相應文件,然後以文件中包括的所有未訪問過的url作為新的起點,繼續進行漫遊,直到沒有滿足條件的新url為止。

深度優先搜尋是一種在開發爬蟲早期使用較多的方法。優點是能遍歷乙個web 站點或深層巢狀的文件集合;缺點是因為web結構相當深,,有可能造成一旦進去,再也出不來的情況發生。

robots協議(也稱為爬蟲協議、爬蟲規則、機械人協議等)也就是robots.txt,**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。robots協議是**國際網際網路界通行的道德規範,其目的是保護**資料和敏感資訊、確保使用者個人資訊和隱私不被侵犯。因其不是命令,故需要搜尋引擎自覺遵守。一些病毒如malware(馬威爾病毒)經常通過忽略robots協議的方式,獲取**後台資料和個人資訊。2023年8月,奇虎360被曝違反robots協議。

引用:

搜尋引擎優化基礎

您已經建立了乙個很棒的站點,接下來該做什麼呢?無論這個 web 站點的目的是銷售產品還是提供資訊,如果沒有人瀏覽它,您的努力就白費了。讓站點受到關注的方法是讓它對搜尋引擎和實際受眾友好。向搜尋引擎 推銷 web 站點本身已經成了一種業務,許多顧問 工具和搜尋引擎優化 seo 站點都可以幫助您的站點吸...

搜尋引擎索引之索引基礎

本文節選自 這就是搜尋引擎 核心技術詳解 第三章 本節通過引入簡單例項,介紹與搜尋引擎索引有關的一些基礎概念,了解這些基礎概念對於後續深入了解索引的工作機制非常重要。3.1.1單詞 文件矩陣 單詞 文件矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3 1展示了其含義。圖3 1的每列代表乙個文件...

搜尋引擎索引之索引基礎

本文節選自 這就是搜尋引擎 核心技術詳解 第三章 本節通過引入簡單例項,介紹與搜尋引擎索引有關的一些基礎概念,了解這些基礎概念對於後續深入了解索引的工作機制非常重要。3.1.1單詞 文件矩陣 單詞 文件矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3 1展示了其含義。圖3 1的每列代表乙個文件...