第九章 Web機械人

第九章 web機械人

1、爬蟲及爬行方式

web爬蟲會遞迴地對各種資訊性web站點進行遍歷

1）根集

爬蟲開始訪問的url初始集合

好的根集：一些大的流行web站點、乙個新建立頁面的列表和乙個不經常被鏈結的無名頁面列表

2）鏈結提取

對html解析，將鏈結新增到需要爬行的頁面列表中

3）避免環路

不斷獲取相同頁面，可能擊垮伺服器；返回重複頁面

4）爬蟲記錄

①搜尋樹和雜湊表

②有損的存在位圖：出現衝突，忽略頁面

③檢查點：url儲存到硬碟，防止程式崩潰

④分類：特定的url片

4）同一文件的不同url別名

5）避免迴圈和重複

①規範化url

②廣度優先的爬行

將環路影響最小化

③節流限制一段時間內機械人可以從乙個web站點獲取的頁面數量

④限制url的大小

拒絕爬行超過特定長度的url，但是會錯誤一些內容

⑤url/站點黑名單

⑥模式檢測

查詢不同週期的重複模式

⑦內容指紋

md5報文摘要函式，忽略動態修改的部分

⑧人工監視

2、行為不當的機械人

1）失控機械人

機械人發起http請求速度比web衝浪的人多，出現環路可能對web伺服器發出大量的負載

2）失效的url

提供出錯頁面的開銷降低web伺服器的處理能力

3）很長的錯誤url

環路和程式設計錯誤造成url過長，降低web伺服器效能

4）愛打聽的機械人

對敏感資料，抓取後丟棄

5）動態閘道器訪問

3、拒絕機械人訪問

儲存訪問控制資訊的檔案

robots.txt：說明機械人可以訪問伺服器的哪些部分

如果機械人遵守這個資源約束標準，會在訪問那個站點的所有資源之前，從web站點請求robots.txt檔案

機械人通過http的get方法獲取robots.txt資源，就像其它資源一樣

快取：周期性地獲取robots.txt檔案，並快取，不然會加倍伺服器負載，降低機械人效率

4、搜尋引擎

web爬蟲為網際網路搜尋引擎提供資訊，獲取web文件，允許搜尋引擎建立索引

全文索引(倒排文件)：給定乙個單詞，提供包含那個單詞的所有文件

1）發布查詢請求

2）對結果進行排序，並提供查詢結果

第九章（筆記）

轉移指令是可以修改ip，或同時修改cs和ip的指令 offset 是用於提取標號偏移位址的操作符 jmp在第2章裡說到時用於修改ip或同時修改cs和ip的轉移指令，這章裡單獨的jmp指令是乙個無條件的轉移指令 jmp short 標號是實現段內短轉移 jmp near ptr 標號是實現段內近轉...

第九章作業

班級 0401304 學號 2013211526 姓名鄧小俊 2.身份驗證依據使用者所提供的身份資訊，來進行登入驗證，可以再細分為使用者是否可以登入sql sever 使用者是否可以登入到指定的目標資料庫等。授權已通過身份驗證的使用者，檢查其所被賦予的許可權，是否可以訪問或者執行目標的物件 3...

第九章引用

引用擁有指標的所有功能,只是語法更加的簡單 1 引用就是別名,變數的另外乙個名字,變數和別名它們的位址是一樣的，操作別名就是操作變數 2 引用就是別名常量,一旦引用被初始化就不能再改變了可以理解為指標常量,指向的值不能改變，能改變的只是它的該位址處的值 3 引用物件huamn mike human...

第九章 Web機械人

第九章（筆記）

第九章作業

第九章 引用

相關推薦

第九章引用