第九章 Web機械人

2021-06-14 13:08:54 字數 1366 閱讀 2206

第九章 web機械人

1、爬蟲及爬行方式

web爬蟲會遞迴地對各種資訊性web站點進行遍歷

1)根集

爬蟲開始訪問的url初始集合

好的根集:一些大的流行web站點、乙個新建立頁面的列表和乙個不經常被鏈結的無名頁面列表

2)鏈結提取

對html解析,將鏈結新增到需要爬行的頁面列表中

3)避免環路

不斷獲取相同頁面,可能擊垮伺服器;返回重複頁面

4)爬蟲記錄

①搜尋樹和雜湊表

②有損的存在位圖:出現衝突,忽略頁面

③檢查點:url儲存到硬碟,防止程式崩潰

④分類:特定的url片

4)同一文件的不同url別名

5)避免迴圈和重複

①規範化url

②廣度優先的爬行

將環路影響最小化

③節流限制一段時間內機械人可以從乙個web站點獲取的頁面數量

④限制url的大小

拒絕爬行超過特定長度的url,但是會錯誤一些內容

⑤url/站點黑名單

⑥模式檢測

查詢不同週期的重複模式

⑦內容指紋

md5報文摘要函式,忽略動態修改的部分

⑧人工監視

2、行為不當的機械人

1)失控機械人

機械人發起http請求速度比web衝浪的人多,出現環路可能對web伺服器發出大量的負載

2)失效的url

提供出錯頁面的開銷降低web伺服器的處理能力

3)很長的錯誤url

環路和程式設計錯誤造成url過長,降低web伺服器效能

4)愛打聽的機械人

對敏感資料,抓取後丟棄

5)動態閘道器訪問

3、拒絕機械人訪問

儲存訪問控制資訊的檔案

robots.txt:說明機械人可以訪問伺服器的哪些部分

如果機械人遵守這個資源約束標準,會在訪問那個站點的所有資源之前,從web站點請求robots.txt檔案

機械人通過http的get方法獲取robots.txt資源,就像其它資源一樣

快取:周期性地獲取robots.txt檔案,並快取,不然會加倍伺服器負載,降低機械人效率

4、搜尋引擎

web爬蟲為網際網路搜尋引擎提供資訊,獲取web文件,允許搜尋引擎建立索引

全文索引(倒排文件):給定乙個單詞,提供包含那個單詞的所有文件

1)發布查詢請求

2)對結果進行排序,並提供查詢結果

第九章(筆記)

轉移指令是可以修改ip,或同時修改cs和ip的指令 offset 是用於提取標號偏移位址的操作符 jmp在第2章裡說到時用於修改ip或同時修改cs和ip的轉移指令,這章裡單獨的jmp指令是乙個無條件的轉移指令 jmp short 標號 是實現段內短轉移 jmp near ptr 標號 是實現段內近轉...

第九章作業

班級 0401304 學號 2013211526 姓名 鄧小俊 2.身份驗證 依據使用者所提供的身份資訊,來進行登入驗證,可以再細分為使用者是否可以登入sql sever 使用者是否可以登入到指定的目標資料庫等。授權 已通過身份驗證的使用者,檢查其所被賦予的許可權,是否可以訪問或者執行目標的物件 3...

第九章 引用

引用擁有指標的所有功能,只是語法更加的簡單 1 引用就是別名,變數的另外乙個名字,變數和別名它們的位址是一樣的,操作別名就是操作變數 2 引用就是別名常量,一旦引用被初始化就不能再改變了 可以理解為指標常量,指向的值不能改變,能改變的只是它的該位址處的值 3 引用物件huamn mike human...