爬蟲學習筆記1

2022-06-07 17:12:11 字數 700 閱讀 7896

目錄通過程式設計向網路伺服器請求資料(html表單),然後解析html,提取出自己想要的資料。哇~

(為何有種相見恨晚的趕腳??)

基礎知識可以參考一下崔慶才老師的官方部落格,基本知識點都提到了,就是不太深,但是作為入門夠了.

這個鏈結的中文釋義就是,可以https這個協議訪問的資源,位於主機blog.csdn.net上,存在主機的這個/pleasecallmewhy/article/details/8922826位置上

就可以深刻理解統一資源定位符的概念了

https:http + ssl(安全套接子字層)

user_agent:使用者**:對方伺服器能夠通過user_agent知道當前請求對方資源的是什麼瀏覽器

cookie:用來儲存使用者資訊的,每次請求會被攜帶上傳送給對方的瀏覽器

要獲取登入後才能訪問的頁面

對方的伺服器會通過cookie來判斷我們是乙個爬蟲

請求體(get沒有,post有)

攜帶資料

http協議之響應

- 1.響應頭

- set-cookie:對方伺服器通過該欄位設定cookie到本地

- 2.響應體

- url位址對應的響應

因此第一階段的學習目標

1.request庫

2.beautifulsoup庫

從知乎找到了一張圖,我感覺很詳細

python爬蟲學習筆記(1)

2.parse模組 遇到了問題 本人使用了anaconda3中的python3環境,進行爬蟲的環境為anaconda中的spyder,使用anaconda具體詳細原因及安裝教程可見 anaconda3詳細安裝使用教程及問題總結 request就是請求的意思,主要用於url資訊的請求 import u...

Python 爬蟲學習筆記1

urllib模組 urllib.requests 開啟和讀取urls urllib.error 包含urllib.requests 產生的常見錯誤,使用try捕捉 urllib.parse 包含即係url方法 urllib.robotparse 解析robots.txt檔案 網頁編碼問題解決 cha...

爬蟲學習筆記num1

1.通用爬蟲 抓取系統的重要做成部分,一整張頁面資料。2.聚焦爬蟲 建立在通用爬蟲的上,抓取頁面的特定區域性內容。3.增量式爬蟲 檢測 中的資料是否額更新,抓取更新的部分。爬蟲通過則略或手段,破解反爬機制,來爬取網頁的資料 超文字傳輸協議,吳福氣與客戶端資料互動的一種形式。user agent 請求...