Python爬蟲學習筆記(三)

2021-10-24 19:44:21 字數 1421 閱讀 1725

#抓取w**上的 把這些儲存到乙個資料夾中

# import requests

# if __name__=="__main__":

# url = ''

# # text 字串 content 二進位制 json() 物件

# response = requests.get(url).content

# # w 以文字的方式寫入 wb 以二進位制的方式寫入

#建立資料夾

os.mkdir(

'./qiutulibs/'

) url =

''#整張網頁的url 這個位址是直接在位址列輸入的 所以請求方式為get

headers =

page_response = requests.get(url=url,headers=headers)

.text

ex =

'.*?

##構建正規表示式

img_src_list = re.findall(ex,page_response,re.s)

#re.s單行模式 re.m多行模式 #所有鏈結

.content#通過鏈結將獲取到的轉為二進位制

img_name = src.split(

'/')[-

1]#路徑按/分割 【-1】代表分割的最後乙個部分 將id作為name

img_path =

'./qiutulibs/'

+img_name

with

open

(img_path,

'wb'

)as fp:

# wb表示寫入二進位制資料

fp.write(img_data)

print

(img_name,

)

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...

python爬蟲學習筆記

2.網頁資訊提取 beautiful soup庫 這是 學習北理的嵩山天老師mooc教程的筆記,是老師上課用的例項。import requests url try kv 將爬蟲偽裝成瀏覽器 r requests.get url,headers kv r.raise for status print ...