爬蟲須知知識點

2021-10-03 20:47:54 字數 1013 閱讀 4192

uri:統一資源標誌符,url:統一資源定位符。

關係:url是uri的子集。

3.超文字可以理解為網頁的源**。

http:超文字傳輸協議,用於從網路傳輸超文字資料到本地瀏覽器的傳送協議。優點:高效而準確。

https:http的安全版,安全基礎是ssl,傳輸內容經過ssl加密。

請求方法:get和post

get和post區別:

(1)get請求中的引數全部包含在url裡面

(2)get提交的資料最多1024位元組,post沒有限制。

(3)post用於提交表單或者上傳檔案。

(1) accept:請求報頭域,用於指定使用者可接受哪些型別的資訊

(2)accept-language:客戶端可接受語言型別

(3) accept-encoding:客戶端可以接受內容編碼

(4) host:用於指定請求資源的主機ip和埠號

(5) cookie:**為了辨別使用者進行會話跟蹤而儲存在使用者本地的資料,功能是維護當前訪問會話

(6) referer:標識請求從哪個頁面發過來的

(7)user-agent:ua,可以使伺服器識別客戶使用的作業系統及版本,瀏覽器及版本資訊,加上ua,可以偽裝成瀏覽器

(8)content-type:mime型別(網際網路**型別),用來表示請求中的**型別資訊

組成:響應狀態碼,響應頭和響應體。

響應狀態碼

200:請求成功

301:永久重定向

302:臨時重定向

400:客戶端錯誤

401:未授權

403:伺服器拒絕訪問

404:頁面未找到

405:請求方式不對

408:請求超時

500:伺服器錯誤

503:伺服器不可用

1.會話物件用來儲存特定會話所需屬性和配置資訊,在伺服器端。

2.cookies

(1)瀏覽器上的會話,在客戶端。

(2)包含domain(網域名稱),value,name等。

爬蟲知識點(xpath)

xpath xml path language 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件 開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...

Python爬蟲知識點一

一。入門知識 1.1.http簡介 uri和url的區別 uri強調的是資源,而url強調的是資源的位置。1.2常用請求型別 options 返回伺服器針對特定資源所支援的http請求方法。head 向伺服器索要與get請求相一致的響應,只不過響應體將不會被返回。get 向特定資源發出請求 post...

爬蟲相關知識點(2)

爬蟲的基本流程 模擬瀏覽器的行為,向伺服器傳送請求,獲取響應,並在響應中獲取資料。如何模擬瀏覽器 http協議 ip位址有沒有被禁止。解決方案,響應直接重定向到登入頁面。沒有進行登入,模擬登入。攜帶的瀏覽器的資料不對,user agent referer。引數有問題 如何傳送請求獲取響應 reque...