Python網路爬蟲3

2021-10-01 02:14:14 字數 1585 閱讀 3055

#命令列中寫python**遇到迴圈時要想退出迴圈按下ctrl+z就可以了

#京東商品頁面的爬取

'''import requests

r = requests.get("")

print(r.encoding)#gbk編碼

print(r.text)

''''''

import requests

url = ""

try:

r = requests.get(url)

r.raise_for_status()

print(r.text[:1000])

except:

print("error")

'''#亞馬遜商品頁面的爬取

'''import requests

r = requests.get("")

print(r.status_code)

print(r.request.headers)#輸出裡面就包含user—agent:'python-requests/2.21.0'

#爬蟲忠實的告訴瀏覽器我他媽是爬蟲

#這樣可能會出錯

''''''

kv = #模擬乙個瀏覽器訪問

url = ""

r = requests.get(url,headers = kv)

print(r.status_code)#這時候可能就是200了

print(r.request.headers)

print(r.text)

'''#wd是搜尋引擎界面前的標識

#keyword就是我們要找的

'''import requests

kv =

r = requests.get("",params = kv)

print(r.request.url)#意思是使用reponse物件中的requests資訊

print(len(r.text))#返回440000,標識返回440kb的資訊

print(r.text[:1000])

'''#網路的爬取與儲存

#是以二進位制形式存在的

'''import requests

path = "d:"

url = ""

r = requests.get(url)

print(r.status_code)

with open (path,"wb") as f:

f.write(r.content)#返回的二進位制形式寫到檔案中

f.close()

'''#ip位址歸屬地,也就是查這個ip位址來自**是美國還是中國

#www.ip138.com

#當我們隨便輸入乙個時

##我們可以通過上面的長方形url來寫程式

import requests

url = ""

r = requests.get(url+'202.204.80.112')

print(r.status_code)

#如果返回太多會導致r.text失效,所以我們盡量約束乙個空間

print(r.text[-500:])

Python 3 網路爬蟲

python 原來還可以這樣玩 python爬蟲,破解有道翻譯介面引數 破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲 五 python3安裝scrapy article details 60156205 py...

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...