python爬蟲學習筆記

2.網頁資訊提取（beautiful soup庫）

這是學習北理的嵩山天老師mooc教程的筆記，**是老師上課用的例項。

import requests
url =
""try:
kv=#將爬蟲偽裝成瀏覽器
r = requests.get(url,headers=kv)
r.raise_for_status(
) print
(r.text[
1000
:2000])
except
:print
('爬取失敗'
)

替換上述鏈結的keyword即可。

import requests
keyword =
'python'
try:
kv=r = requests.get(
'',params=kv)
r.raise_for_status(
) print
(len
(r.text)
)except
:print
('出現錯誤'
#定義儲存本地的根目錄
path=root+url.split(
'/')[-
1]#將檔名稱與網路名相一致
try:
ifnot os.path.exists(root)
:#判斷該根目錄是否存在，若不存在則建立
os.mkdir(root)
ifnot os.path.exists(path)
:#判斷該檔案是否存在，若不存在則獲取
r=requests.get(url)
with
open
(path,
'wb'
)as f:
f.write(r.content)
f.close
print
('儲存成功'
)else
:print
('已經存在'
)except
:print
('爬取失敗'
)

查詢**：

import requests
url=
""try:
r=requests.get(url+
"202.204.80.112"
) r.raise_for_status(
) print
(r.text[
-100:]
)except
:print
('爬取失敗'
)

python爬蟲學習筆記

一爬蟲思路對於一般的文章而言，思路如下 1.通過主頁url獲取主頁原始碼，從主頁原始碼中獲得標題鏈結如想要抓取知乎上的新聞，就獲得主頁上的新聞鏈結 2.繼續通過標題鏈結獲得標題原始碼，進而獲得標題中的內容。其中，當存在多頁時，先將每一頁都一樣的url寫下來，然後迴圈加入頁碼，具...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...

Python 爬蟲學習筆記

爬取搜狗首頁的頁面資料 import requests if name main 指定url url 發起請求 get方法會返回乙個響應物件 response requests.get url url 獲取響應資料,text返回的是字串形式的響應資料 page text response.text ...

python爬蟲學習筆記

python爬蟲學習筆記

Python爬蟲學習筆記

Python 爬蟲 學習筆記

相關推薦

Python 爬蟲學習筆記