Python學習筆記 爬蟲

2022-07-12 04:03:10 字數 856 閱讀 3166

1.編碼方式

unicode為了執行統一標準,將所有國家的編碼方式加了進來,例如常用的utf-8就是unicode的一種實現方式,他是可變長編碼

簡單地說,就是當文字是ascii編碼的自複式,他只用一位元組存放,而當文字是其他unicode字元是,他按照一定演算法轉換,每個字元使用1-3位元組存放,這樣便有了有效節省空間的目的。

2.requests

在python中還有更好的http庫--requests

(1)安裝問題

執行以下命令,問題解決。

安裝成功後,測試一波。

(2)利用requests,可以輕鬆得到htttp響應碼和響應頭等資訊。

#

requests

import

requests

r=requests.get('

',auth=('

user

','pass'))

print("

------------------------------")

print

(r.status_code)

print(r.headers)

執行結果:

200

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...

python爬蟲學習筆記

2.網頁資訊提取 beautiful soup庫 這是 學習北理的嵩山天老師mooc教程的筆記,是老師上課用的例項。import requests url try kv 將爬蟲偽裝成瀏覽器 r requests.get url,headers kv r.raise for status print ...