網路爬蟲 python學習筆記

2021-09-09 07:50:08 字數 2222 閱讀 1905

pip install requests
r = requests.get(url)

r = requests.get(url, params = none, **kwargs)

request其實只有乙個方法

request 有兩個物件

>>>import request

>>>r = requests.get("")

>>>print(r.status_code)

200>>>type(r)

常用屬性

r.status_code  #http請求的返回狀態,200  -- succeed, 404 -- failed

r.text #http相應內容的字串形式, 即 url 對應的頁面內容

r.encoding #從http header中猜測的相應內容編碼方式

r.content #http響應內容的二進位制形式

try

: r = requests.get(url, timeout =30)

r.raise_for_status(

) return r.text

except

:return

''產生異常''

防禦方法

1、審查**

2、robots協議:建議但非約束性

建議任何情況下都應該遵守robots協議,但是類人行為原則上可以不遵守robots協議

import request

url =

""try:

kv =

r = requests.get(url, headers = kv)

r.raise_for_status(

) print

(r.text[

1000

:2000])

except

:print

("爬取失敗"

)

import requests

keyword =

'python'

try:

kv =

r = requests.get(

"/s"

, params = kv)

print

(r.request.url)

r.raise_for_status(

)print

(len

(r.text)

)except

:print

("爬取失敗"

)

360:

wd => q

import requests

import os

url =

"*****"

root =

"d://pics//"

path = root + url.split(

'/')[-

1]try:

ifnot os.path.exists(root)

: os.mkdir(root)

ifnot os.path.exists(path)

: r = requests.get(url)

with

open

(path,

'wb'

)as f:

f.write(r.content)

f.close(

)print

("succeed!"

)else

:print

("already existed!"

)except

:print

("failed!"

)

import requests

url =

""try:

r = requests.get(url +***

.***.

**.***

) r.raise_for_status(

) print

(r.text[

-500:]

)except

:print

("failed!"

)

python網路爬蟲學習筆記

爬取網頁的通用 框架 網路爬蟲的盜亦有道 requests爬取例項 自動爬取html頁面 自動網路請求提交 主要方法 說明requests.request 構造乙個請求 requests.get 獲取html網頁的主要方法,對應於http的get requests.head 獲取html網頁頭資訊的...

Python(學習筆記 網路爬蟲)

這篇呢作為學習筆記吧,應該不是太官方的 那就開始吧,不太正式,就不注重格式了 一 引言 首先我們應該想這麼個問題,學python的目的是什麼,最近我們開了python這門課,有好多同學的學習方法我感覺出了問題,有的同學問我怎麼學,說實在我也不知道,因為我也是新手,c語言也是剛及格,菜雞一枚。但是就我...

Python之網路爬蟲學習筆記

大資料時代資料獲取的方式 1 企業生產的使用者資料 大型網際網路公司有海量使用者,所以他們積累資料有天然的優勢 有資料意識的中小企業,也開始積累資料。2 資料管理諮詢公司 通常這樣的公司有很龐大的資料採集團隊,一般會通過市場調研 問卷調查 固定的樣本檢測和各行各業的公司進行合作 專家對話 資料積累很...