python爬蟲的兩種方式

2022-06-12 09:42:12 字數 1094 閱讀 3504

1.

import urllib.request

from

bs4 import beautifulsoup

import re

import os

url='

'#gb2312

head={}

head[

'user_agent

']='

'#設定**,假裝是使用者訪問. 注意,伺服器會限制部分user-agent,如果程式報錯,就換乙個。

blog.csdn.net/bone_ace/article/details/52476016

req=urllib.request.request(url,headers=head)#給請求裝上**

response=urllib.request.urlopen(url)#開啟url

res=response.read().decode('

gb2312

',"ignore

")#讀取網頁內容,用utf-8解碼成位元組

soup=beautifulsoup(res,'

lxml

')

2.

import

requests

#res = requests.get('')

#print(res.encoding)

import

urllib.request

from bs4 import

beautifulsoup

import

reimport

osurl='

'#雲南#

gbkhead={}

head[

'user_agent

']='

'req=urllib.request.request(url,headers=head)#

給請求裝上**

r = requests.get(url, timeout=30)

r.encoding = '

gbk'

soup = beautifulsoup(r.text, '

lxml

')

python爬蟲的兩種方式

1 requests方式 1 無頭部資訊 import requests url response requests.get url response.encoding utf 8 print response.text 2 有頭部資訊 import requests url headers res...

python的兩種退出方式

os.exit 會直接將python程式終止,之後的所有 都不會繼續執行。sys.exit 會引發乙個異常 systemexit,如果這個異常沒有 獲,那麼python直譯器將會退出。如果有捕獲此異常的 那麼這些 還是會執行。1 importos2 3try 4 os.exit 0 5except ...

Python的兩種執行方式

python是由guido van rossum於1989年底發明的,1989年聖誕節期間,在阿姆斯特丹,guido為了打發聖誕節的無趣,決心開發乙個新的指令碼解釋程式,做為abc 語言的一種繼承。之所以選中python 大蟒蛇的意思 作為程式的名字,是因為他是乙個叫monty python的喜劇團...