中國大學MOOC 學習筆記（一）

注：本文僅是個人的學習筆記，內容**於中國大學mooc《python網路爬蟲與資訊提取》課程

一京東商品頁面爬取　

import
requests
url = "
"try
: r =requests.get(url)
r.raise_for_status()
#檢查訪問資訊的狀態碼，200表示正確
將編碼改為可以顯示的編碼
print(r.text[:1000])
except
: 
print("
爬取失敗
")

二亞馬遜商品頁面的爬取

1 用乙個字典kv儲存需要修改的頭部資訊。

2 獲取頭部資訊：

>>>r.request.headers

3 訪問url時，修改頭部資訊

import
requests
url = "
"try
: kv = #
請求頭 r = requests.get(url,headers = kv) #
將請求頭修改為kv
r.raise_for_status()
print(r.text[:2000])
except
: 
print("
爬取失敗
")

字典kv用於儲存需要查詢到keywords

import
requests
try:
kv = 
r = requests.get('
',params =kv)
print
(r.request.url)
r.raise_for_status()
print
(len(r.text))
except
: 
print("
爬蟲失敗
")

四網路的爬取和儲存

選擇國家地理的一張url作為物件。

import
requests
path = "
d:"#
儲存的路徑
url = "
"r =requests.get(url)
with open(path,'wb
') as f:
f.write(r.content)
#response物件的content屬性：以二進位制的方式寫入檔案
f.close()

**優化：

引入os庫

import
requests
import
osurl = "
"root = "
d://pic//
"path = root + url.split('
/')[-1]#
分割url並以列表形式儲存，取列表最後一位
try:
ifnot os.path.exists(root):#
不存在父目錄就建立
os.mkdir(root)
ifnot os.path.exists(path):#
不存在就爬取檔案並儲存
r =requests.get(url)
with open(path,'wb
') as f:
f.write(r.content)
f.close()
print("
檔案儲存成功")
else
: 
print('
檔案已存在')
except
: 
print("
爬取失敗
")

五 ip位址自動查詢

import
requests
url = "
"try
: r =requests.get(url)
r.raise_for_status
print(r.text[-5000:])#
抓取ip位址對應網頁的後5000個字元
except
: 
print("
爬蟲失敗
")

中國大學MOOC 學習筆記（三）

在學習了嵩天老師的 python網路爬蟲與資訊提取課程之後，我自己嘗試按照老師的步驟做了乙個小demo。url 如下 import requests from bs4 import beautifulsoup 獲得response物件 defgeturltext url r requests.ge...

我的Python筆記（中國大學MOOC）

使用舉例 cd py 檔案路徑下 pyinstaller i 檔案.ico f 檔案.py 生成的檔案dist中有可執行檔案str str 新字元陣列形式 str str input str str.lower 分割是split 替換是str.replace 新的,目標留乙個好的文章 try e...

中國大學MOOC 浙大C語言學習筆記05

7.1 陣列運算陣列的整合初始化陣列初始化02 int num0 10 陣列的大小 sizeof給出的整個陣列所佔據的內容的大小，單位是位元組 sizeof a sizeof a 0 sizeof a 0 給出的陣列中單個元素的大小，相除得到了陣列的單元個數一旦修改中的初始資料，不需要修改遍...

中國大學MOOC 學習筆記（一）

中國大學MOOC 學習筆記（三）

我的Python筆記（中國大學MOOC）

中國大學MOOC 浙大C語言學習筆記05

相關推薦