爬蟲學習筆記1

目錄通過程式設計向網路伺服器請求資料（html表單），然後解析html，提取出自己想要的資料。哇~

（為何有種相見恨晚的趕腳？？）

基礎知識可以參考一下崔慶才老師的官方部落格，基本知識點都提到了，就是不太深，但是作為入門夠了.

這個鏈結的中文釋義就是，可以https這個協議訪問的資源，位於主機blog.csdn.net上，存在主機的這個/pleasecallmewhy/article/details/8922826位置上

就可以深刻理解統一資源定位符的概念了

https：http + ssl(安全套接子字層)

user_agent:使用者**：對方伺服器能夠通過user_agent知道當前請求對方資源的是什麼瀏覽器

cookie：用來儲存使用者資訊的，每次請求會被攜帶上傳送給對方的瀏覽器

要獲取登入後才能訪問的頁面

對方的伺服器會通過cookie來判斷我們是乙個爬蟲

請求體（get沒有，post有）

攜帶資料

http協議之響應

- 1.響應頭

- set-cookie:對方伺服器通過該欄位設定cookie到本地

- 2.響應體

- url位址對應的響應

因此第一階段的學習目標

1.request庫

2.beautifulsoup庫

從知乎找到了一張圖，我感覺很詳細

python爬蟲學習筆記（1）

2.parse模組遇到了問題本人使用了anaconda3中的python3環境，進行爬蟲的環境為anaconda中的spyder，使用anaconda具體詳細原因及安裝教程可見 anaconda3詳細安裝使用教程及問題總結 request就是請求的意思，主要用於url資訊的請求 import u...

Python 爬蟲學習筆記1

urllib模組 urllib.requests 開啟和讀取urls urllib.error 包含urllib.requests 產生的常見錯誤，使用try捕捉 urllib.parse 包含即係url方法 urllib.robotparse 解析robots.txt檔案網頁編碼問題解決 cha...

爬蟲學習筆記num1

1.通用爬蟲抓取系統的重要做成部分，一整張頁面資料。2.聚焦爬蟲建立在通用爬蟲的上，抓取頁面的特定區域性內容。3.增量式爬蟲檢測中的資料是否額更新，抓取更新的部分。爬蟲通過則略或手段，破解反爬機制，來爬取網頁的資料超文字傳輸協議，吳福氣與客戶端資料互動的一種形式。user agent 請求...

爬蟲學習筆記1

python爬蟲學習筆記（1）

Python 爬蟲學習筆記1

爬蟲學習筆記num1

相關推薦