中國大學MOOC 學習筆記(一)

2022-07-27 04:30:14 字數 2249 閱讀 9504

注:本文僅是個人的學習筆記,內容**於中國大學mooc《python網路爬蟲與資訊提取》課程

一 京東商品頁面爬取 

import

requests

url = "

"try

: r =requests.get(url)

r.raise_for_status()

#檢查訪問資訊的狀態碼,200表示正確

將編碼改為可以顯示的編碼

print(r.text[:1000])

except

:

print("

爬取失敗

")

二 亞馬遜商品頁面的爬取

1 用乙個字典kv儲存需要修改的頭部資訊。

2 獲取頭部資訊:

>>>r.request.headers

3 訪問url時,修改頭部資訊

import

requests

url = "

"try

: kv = #

請求頭 r = requests.get(url,headers = kv) #

將請求頭修改為kv

r.raise_for_status()

print(r.text[:2000])

except

:

print("

爬取失敗

")

字典kv用於儲存需要查詢到keywords

import

requests

try:

kv =

r = requests.get('

',params =kv)

print

(r.request.url)

r.raise_for_status()

print

(len(r.text))

except

:

print("

爬蟲失敗

")

四 網路的爬取和儲存

選擇國家地理的一張url作為物件。

import

requests

path = "

d:"#

儲存的路徑

url = "

"r =requests.get(url)

with open(path,'wb

') as f:

f.write(r.content)

#response物件的content屬性:以二進位制的方式寫入檔案

f.close()

**優化:

引入os庫

import

requests

import

osurl = "

"root = "

d://pic//

"path = root + url.split('

/')[-1]#

分割url並以列表形式儲存,取列表最後一位

try:

ifnot os.path.exists(root):#

不存在父目錄就建立

os.mkdir(root)

ifnot os.path.exists(path):#

不存在就爬取檔案並儲存

r =requests.get(url)

with open(path,'wb

') as f:

f.write(r.content)

f.close()

print("

檔案儲存成功")

else

:

print('

檔案已存在')

except

:

print("

爬取失敗

")

五 ip位址自動查詢

import

requests

url = "

"try

: r =requests.get(url)

r.raise_for_status

print(r.text[-5000:])#

抓取ip位址對應網頁的後5000個字元

except

:

print("

爬蟲失敗

")

中國大學MOOC 學習筆記(三)

在學習了嵩天老師的 python網路爬蟲與資訊提取課程 之後,我自己嘗試按照老師的步驟做了乙個小demo。url 如下 import requests from bs4 import beautifulsoup 獲得response物件 defgeturltext url r requests.ge...

我的Python筆記(中國大學MOOC)

使用舉例 cd py 檔案路徑下 pyinstaller i 檔案.ico f 檔案.py 生成的檔案dist中有可執行檔案str str 新字元 陣列形式 str str input str str.lower 分割是split 替換是str.replace 新的,目標 留乙個好的文章 try e...

中國大學MOOC 浙大C語言學習筆記05

7.1 陣列運算 陣列的整合初始化 陣列初始化02 int num0 10 陣列的大小 sizeof給出的整個陣列所佔據的內容的大小,單位是位元組 sizeof a sizeof a 0 sizeof a 0 給出的陣列中單個元素的大小,相除得到了陣列的單元個數 一旦修改 中的初始資料,不需要修改遍...