python爬蟲學習筆記

2021-09-25 20:23:18 字數 1551 閱讀 3267

2.網頁資訊提取(beautiful soup庫)

這是 學習北理的嵩山天老師mooc教程的筆記,**是老師上課用的例項。

import requests

url =

""try:

kv=#將爬蟲偽裝成瀏覽器

r = requests.get(url,headers=kv)

r.raise_for_status(

) print

(r.text[

1000

:2000])

except

:print

('爬取失敗'

)

替換上述鏈結的keyword即可。

import requests

keyword =

'python'

try:

kv=r = requests.get(

'',params=kv)

r.raise_for_status(

) print

(len

(r.text)

)except

:print

('出現錯誤'

#定義儲存本地的根目錄

path=root+url.split(

'/')[-

1]#將檔名稱與網路名相一致

try:

ifnot os.path.exists(root)

:#判斷該根目錄是否存在,若不存在則建立

os.mkdir(root)

ifnot os.path.exists(path)

:#判斷該檔案是否存在,若不存在則獲取

r=requests.get(url)

with

open

(path,

'wb'

)as f:

f.write(r.content)

f.close

print

('儲存成功'

)else

:print

('已經存在'

)except

:print

('爬取失敗'

)

查詢**:

import requests

url=

""try:

r=requests.get(url+

"202.204.80.112"

) r.raise_for_status(

) print

(r.text[

-100:]

)except

:print

('爬取失敗'

)

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...

Python 爬蟲 學習筆記

爬取搜狗首頁的頁面資料 import requests if name main 指定url url 發起請求 get方法會返回乙個響應物件 response requests.get url url 獲取響應資料,text返回的是字串形式的響應資料 page text response.text ...