Python爬蟲學習筆記（三）

#抓取w**上的 把這些儲存到乙個資料夾中
# import requests
# if __name__=="__main__":
# url = ''
# # text 字串 content 二進位制 json() 物件
# response = requests.get(url).content
# # w 以文字的方式寫入 wb 以二進位制的方式寫入
#建立資料夾
os.mkdir(
'./qiutulibs/'
) url =
''#整張網頁的url 這個位址是直接在位址列輸入的 所以請求方式為get
headers =
page_response = requests.get(url=url,headers=headers)
.text
ex =
'.*?
##構建正規表示式
img_src_list = re.findall(ex,page_response,re.s)
#re.s單行模式 re.m多行模式 #所有鏈結
.content#通過鏈結將獲取到的轉為二進位制
img_name = src.split(
'/')[-
1]#路徑按/分割 【-1】代表分割的最後乙個部分 將id作為name
img_path =
'./qiutulibs/'
+img_name
with
open
(img_path,
'wb'
)as fp:
# wb表示寫入二進位制資料
fp.write(img_data)
print
(img_name,
)

python爬蟲學習筆記

一爬蟲思路對於一般的文章而言，思路如下 1.通過主頁url獲取主頁原始碼，從主頁原始碼中獲得標題鏈結如想要抓取知乎上的新聞，就獲得主頁上的新聞鏈結 2.繼續通過標題鏈結獲得標題原始碼，進而獲得標題中的內容。其中，當存在多頁時，先將每一頁都一樣的url寫下來，然後迴圈加入頁碼，具...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...

python爬蟲學習筆記

2.網頁資訊提取 beautiful soup庫這是學習北理的嵩山天老師mooc教程的筆記，是老師上課用的例項。import requests url try kv 將爬蟲偽裝成瀏覽器 r requests.get url,headers kv r.raise for status print ...

Python爬蟲學習筆記（三）

python爬蟲學習筆記

Python爬蟲學習筆記

python爬蟲學習筆記

相關推薦