python 網路爬蟲概念與HTTP s 協議

2022-02-01 01:27:40 字數 2063 閱讀 2762

1.通用爬蟲:通用爬蟲是搜尋引擎(baidu、google、yahoo等)「抓取系統」的重要組成部分。

2.聚焦爬蟲:聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如:獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的資料值。

a)門戶**主動向搜尋引擎公司提供其**的url

b)搜尋引擎公司與dns服務商合作,獲取**的url

注意點:

1、 http允許傳輸任意型別的資料物件。正在傳輸的型別由content-type加以標記

2、 http是無連線:無連線的含義是限制每次連線只處理乙個請求。伺服器處理完客戶的請求,並收到客戶的應答後,即斷開連線。採用這種方式可以節省傳輸時間。

3、 http是**獨立的

4、 http是無狀態:http協議是無狀態協議

accept:瀏覽器通過這個頭告訴伺服器,它所支援的資料型別

accept-charset: 瀏覽器通過這個頭告訴伺服器,它支援哪種字符集

accept-encoding:瀏覽器通過這個頭告訴伺服器,支援的壓縮格式

accept-language:瀏覽器通過這個頭告訴伺服器,它的語言環境

host:瀏覽器通過這個頭告訴伺服器,想訪問哪台主機

if-modified-since: 瀏覽器通過這個頭告訴伺服器,快取資料的時間

referer:瀏覽器通過這個頭告訴伺服器,客戶機是哪個頁面來的 防盜煉

x-requested-with: xmlhttprequest 代表通過ajax方式進行訪問

user-agent:請求載體的身份標識

location: 伺服器通過這個頭,來告訴瀏覽器跳到**

server:伺服器通過這個頭,告訴瀏覽器伺服器的型號

content-encoding:伺服器通過這個頭,告訴瀏覽器,資料的壓縮格式

content-length: 伺服器通過這個頭,告訴瀏覽器回送資料的長度

content-language: 伺服器通過這個頭,告訴瀏覽器語言環境

content-type:伺服器通過這個頭,告訴瀏覽器回送資料的型別

refresh:伺服器通過這個頭,告訴瀏覽器定時重新整理

transfer-encoding:伺服器通過這個頭,告訴瀏覽器資料是以分塊方式回送的

expires: -1 控制瀏覽器不要快取

cache-control: no-cache

pragma: no-cache

1、ssl加密技術,客戶端向伺服器傳送一條資訊,首先客戶端會採用已知的演算法對資訊進行加密,比如md5或者base64加密,

接收端對加密的資訊進行解密的時候需要用到金鑰,中間會傳遞金鑰,(加密和解密的金鑰是同乙個),金鑰在傳輸中間是被加密的。

這種方式看起來安全,但是仍有潛在的危險,一旦被竊聽,或者資訊被挾持,就有可能破解金鑰,而破解其中的資訊。因此「共享金鑰加密」這種方式存在安全隱患

2、非對稱秘鑰加密技術,伺服器首先告訴客戶端按照自己給定的公開金鑰進行加密處理,客戶端按照公開金鑰加密以後,

伺服器接受到資訊再通過自己的私有金鑰進行解密,這樣做的好處就是解密的鑰匙根本就不會進行傳輸,因此也就避免了被挾持的風險。

就算公開金鑰被竊聽者拿到了,它也很難進行解密,因為解密過程是對離散對數求值,這可不是輕而易舉就能做到的事

問題:(1)無法保證接收端向傳送端發出公開秘鑰的時候,傳送端確保收到的是預先要傳送的,而不會被挾持。只要是傳送金鑰,就有可能有被挾持的風險。

(2)效率比較低,它處理起來更為複雜,通訊過程中使用就有一定的效率問題而影響通訊速度

3、https的證書機制,伺服器的開發者攜帶公開金鑰,向數字證書認證機構提出公開金鑰的申請,數字證書認證機構在認清申請者的身份,審核通過以後,會對開發者申請的公開金鑰做數字簽名,然後分配這個已簽名的公開金鑰,並將金鑰放在證書裡面,繫結在一起;

伺服器將這份數字證書傳送給客戶端,因為客戶端也認可證書機構,客戶端可以通過數字證書中的數字簽名來驗證公鑰的真偽,來確保伺服器傳過

python靜態爬蟲概念

1.什麼是爬蟲 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻,自動索引,模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料...

Python 爬蟲 概念基礎

通過編寫的程式,模擬瀏覽器,然後通過網際網路抓取資料分過程 爬蟲在使用中的分類 通用爬蟲 抓取系統的重要主城部分,抓取的是整張頁面的資料。聚焦爬蟲 建立在通用爬蟲的基礎上,抓取的是頁面中特定的內容。增量式爬蟲 檢測 中資料更新的情況,只會抓取 中最新更新的資料。反爬機制 各個 通過制定相應的策略或技...

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...