pyhon爬蟲學習日記1 urllib mac系統

2021-08-08 02:50:16 字數 1745 閱讀 3814

系統:mac sierra 版本:10.12.6  必備知識:最好具備python的基礎知識,我已經有這個基礎了,所以不知道沒有會不會有很大影響

python基礎我個人是在自學的,如果比較著急可以不學後面的高階程式設計,基礎應付這個也足夠了,只是高階教程也需要學的,建議一起學了

現在來說只需要匯入乙個request請求就行了 

**是:fromurllib

importrequest

發請求方式也不是urllib.urlopen('***x')

而是request.urlopen()

其實就是把urllib換成了request,至少目前而言是這樣的,後面會有所區別.

那麼**應該是:

fromurllibimportrequest

if__name__ =="__main__":

request_url =""response = request.urlopen(request_url)

print(response.read())

輸出的是一堆html**.這就是乙個普通的http請求

之後就是加入乙個user-agent,user-agent的作用就是讓偽裝成各種瀏覽器,就是讓對方後台誤以為我們是瀏覽器,而非純**

這裡我用mac safari的user-agent 為:

那麼新**就是:

fromurllibimportrequest

if__name__ =="__main__":

headers = #請求頭並非只有乙個鍵值對,所以用字典型別

req = request.request("",headers = headers) #建立請求

response = request.urlopen(req)

print (response.read())

執行之後可能會報錯,urllib.error.urlerror:

沒遇到的直接跳過就行了。

遇到了匯入ssl然後加上預設補驗證的**:

更改後**為:

headers = #請求頭並非只有乙個鍵值對,所以用字典型別

req = request.request("",headers = headers) #建立請求

response = request.urlopen(req)

print (response.read())返回就是最早出現的html文件

Thinkphp學習筆記1 URL模式

pathinfo模式 pathinfo模式是系統的預設url模式,提供了最好的seo支援,系統內部已經做了環境的相容處理,所以能夠支援大多數的主機環境。對應上面的url模式,pathinfo模式下面的url訪問位址是 http localhost index.php home user login ...

1 URL和URLConnection類的使用

url obj new url system.out.println obj.getpath system.out.println obj.getprotocol system.out.println obj.getquery system.out.println obj.gethost syste...

讀書筆記1 URL 和 HTTP 報文

每個 web 伺服器資源都有乙個名字,這樣客戶端就可以說明它們感情需的資源是什麼了,伺服器資源名被稱為 uri。uri 就像網際網路上的郵政位址一樣,在世界範圍內唯一標識並定位資訊資源。url 是資源識別符號最常見的形式,它描述了一台特定伺服器上某資源的特定位置。現在,幾乎所有的 uri 都是 ur...