python 網路爬蟲概念與HTTP s 協議

1.通用爬蟲：通用爬蟲是搜尋引擎（baidu、google、yahoo等）「抓取系統」的重要組成部分。 2.聚焦爬蟲：聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如：獲取豆瓣上電影的名稱和影評，而不是獲取整張頁面中所有的資料值。 a)門戶**主動向搜尋引擎公司提供其**的url b)搜尋引擎公司與dns服務商合作，獲取**的url

注意點： 1、 http允許傳輸任意型別的資料物件。正在傳輸的型別由content-type加以標記 2、 http是無連線：無連線的含義是限制每次連線只處理乙個請求。伺服器處理完客戶的請求，並收到客戶的應答後，即斷開連線。採用這種方式可以節省傳輸時間。 3、 http是**獨立的 4、 http是無狀態：http協議是無狀態協議

accept:瀏覽器通過這個頭告訴伺服器，它所支援的資料型別 accept-charset: 瀏覽器通過這個頭告訴伺服器，它支援哪種字符集 accept-encoding：瀏覽器通過這個頭告訴伺服器，支援的壓縮格式 accept-language：瀏覽器通過這個頭告訴伺服器，它的語言環境 host：瀏覽器通過這個頭告訴伺服器，想訪問哪台主機 if-modified-since: 瀏覽器通過這個頭告訴伺服器，快取資料的時間 referer：瀏覽器通過這個頭告訴伺服器，客戶機是哪個頁面來的防盜煉 x-requested-with: xmlhttprequest 代表通過ajax方式進行訪問 user-agent：請求載體的身份標識

location: 伺服器通過這個頭，來告訴瀏覽器跳到** server：伺服器通過這個頭，告訴瀏覽器伺服器的型號 content-encoding：伺服器通過這個頭，告訴瀏覽器，資料的壓縮格式 content-length: 伺服器通過這個頭，告訴瀏覽器回送資料的長度 content-language: 伺服器通過這個頭，告訴瀏覽器語言環境 content-type：伺服器通過這個頭，告訴瀏覽器回送資料的型別 refresh：伺服器通過這個頭，告訴瀏覽器定時重新整理 transfer-encoding：伺服器通過這個頭，告訴瀏覽器資料是以分塊方式回送的 expires: -1 控制瀏覽器不要快取 cache-control: no-cache pragma: no-cache

1、ssl加密技術，客戶端向伺服器傳送一條資訊，首先客戶端會採用已知的演算法對資訊進行加密，比如md5或者base64加密，接收端對加密的資訊進行解密的時候需要用到金鑰，中間會傳遞金鑰，（加密和解密的金鑰是同乙個），金鑰在傳輸中間是被加密的。這種方式看起來安全，但是仍有潛在的危險，一旦被竊聽，或者資訊被挾持，就有可能破解金鑰，而破解其中的資訊。因此「共享金鑰加密」這種方式存在安全隱患 2、非對稱秘鑰加密技術，伺服器首先告訴客戶端按照自己給定的公開金鑰進行加密處理，客戶端按照公開金鑰加密以後，伺服器接受到資訊再通過自己的私有金鑰進行解密，這樣做的好處就是解密的鑰匙根本就不會進行傳輸，因此也就避免了被挾持的風險。就算公開金鑰被竊聽者拿到了，它也很難進行解密，因為解密過程是對離散對數求值，這可不是輕而易舉就能做到的事問題：(1)無法保證接收端向傳送端發出公開秘鑰的時候，傳送端確保收到的是預先要傳送的，而不會被挾持。只要是傳送金鑰，就有可能有被挾持的風險。 (2)效率比較低，它處理起來更為複雜，通訊過程中使用就有一定的效率問題而影響通訊速度 3、https的證書機制，伺服器的開發者攜帶公開金鑰，向數字證書認證機構提出公開金鑰的申請，數字證書認證機構在認清申請者的身份，審核通過以後，會對開發者申請的公開金鑰做數字簽名，然後分配這個已簽名的公開金鑰，並將金鑰放在證書裡面，繫結在一起；伺服器將這份數字證書傳送給客戶端，因為客戶端也認可證書機構，客戶端可以通過數字證書中的數字簽名來驗證公鑰的真偽，來確保伺服器傳過

python 網路爬蟲概念與HTTP s 協議

python靜態爬蟲概念

Python 爬蟲概念基礎

Python網路爬蟲

python 網路爬蟲概念與HTTP s 協議

python靜態爬蟲概念

Python 爬蟲 概念基礎

Python網路爬蟲

相關推薦

Python 爬蟲概念基礎