麥子學院 python 爬蟲基礎學習筆記（一）

因為版本的問題，所以裡面講的**都需要自己再修改和查新

import urllib
s=urllib.urlopen("")

會報錯「」module 『urllib』 has no attribute 『urlopen』「」

這是因為版本的問題，修正如下：

from urllib.request import urlopen
s=urlopen("")

然後，不要一直重複open，會被目標主機認定為攻擊行為，關閉現有連線

這個直接用就可以

msg=s.info()

但是要注意下面的問題：

不能用這個

print
(msg.headers)

而應該用

print(s.getheaders())

這應該也是版本的問題

同樣的，還有，以下修改：

print("檢視s返回型別",type
(s))

輸出

檢視s返回型別

輸入

> print("檢視頭部資訊",s.info())

輸出

檢視頭部資訊 accept-ranges: bytes

connection: close

輸入

print("輸出頭部資訊",s.getheaders())

會輸出列表型別的頭部資訊

檢視頭部資訊 [('accept-ranges', 'bytes'), ('cache-control', 'max-age=86400'), ('content-length', '15832'), ('content-type', 'text/html'), ('date', 'sun, 09 sep 2018 01:55:22 gmt'), ('etag', '"
3dd8-574017538cf80"'), ('expires', 'mon, 10 sep 2018 01:55:22 gmt'), ('last-modified', 'wed, 22 aug 2018 07:54:54 gmt'), ('p3p', 'cp=" oti dsp cor iva our ind com "'), ('server', 'apache'), ('set-cookie', 'baiduid=6cb7f07e4a04ffc8e20146d1cfa3e328:fg=1; expires=mon, 09-sep-19 01:55:22 gmt; max-age=31536000; path=/; domain=.baidu.com; version=1'), ('vary', 'accept-encoding,user-agent'), ('connection', 'close')]

獲取頭部指定屬性的資訊

print("輸出頭部屬性資訊",s.getheader("server"))

輸出

輸出頭部屬性資訊 apache

檢視響應狀態資訊

print
("檢視狀態響應資訊",s.status)

輸出

檢視狀態響應資訊 200

檢視響應url位址

檢視響應url位址 
print(page.decode("utf-8"))

前者會輸出十六進製制的資訊，後者會以「utf-8」格式正常輸出，限於幅度，可以自行測試。

print(s.info().items())

輸出

01:55:22 gmt; max-age=31536000; path=/; domain=.baidu.com; version=1'), ('vary', 'accept-encoding,user-agent'), ('connection', 'close')]小技巧，可以用 dir(s.info())方法檢視他下面所有包含的使用方法

麥子學院python教程 django入門

1 django的安裝和基本使用 2 django的helloworld執行 1 在blog 自定義的資料夾中有乙個views.py,這是處理檢視的檔案，from django.shortcuts import render 引入該模組定義了乙個函式，並返回乙個要在介面中顯示的檢視 2 需要將上...

python爬蟲小程式 python爬蟲學習小程式

coding utf 8 name 模組1 purpose author mrwang created 18 04 2014 licence import urllib def main url html urllib.urlopen url print html.read 讀取內容 print h...

python爬蟲基礎

一什麼是爬蟲通常爬蟲是從某個的某個頁面開始，爬取這個頁面的內容，找到網頁中的其他鏈結位址，然後從這個位址爬到下乙個頁面，這樣一直不停的爬下去，進去批量的抓取資訊。那麼，我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。二爬蟲的基本流程 1，發起請求向目標站點傳送乙個requests請...

麥子學院 python 爬蟲基礎學習筆記（一）

麥子學院python教程 django入門

python爬蟲小程式 python爬蟲學習小程式

python爬蟲基礎

相關推薦