麥子學院 python 爬蟲基礎學習筆記(一)

2021-08-27 16:00:39 字數 3395 閱讀 8902

因為版本的問題,所以裡面講的**都需要自己再修改和查新

import urllib

s=urllib.urlopen("")

會報錯「」module 『urllib』 has no attribute 『urlopen』「」

這是因為版本的問題,修正如下:

from urllib.request import urlopen

s=urlopen("")

然後,不要一直重複open,會被目標主機認定為攻擊行為,關閉現有連線

這個直接用就可以

msg=s.info()
但是要注意下面的問題:

不能用這個

print

(msg.headers)

而應該用

print(s.getheaders())
這應該也是版本的問題

同樣的,還有,以下修改:

print("檢視s返回型別",type

(s))

輸出

檢視s返回型別 
輸入

> print("檢視頭部資訊",s.info())
輸出

檢視頭部資訊 accept-ranges: bytes

connection: close

輸入

print("輸出頭部資訊",s.getheaders())
會輸出列表型別的頭部資訊

檢視頭部資訊 [('accept-ranges', 'bytes'), ('cache-control', 'max-age=86400'), ('content-length', '15832'), ('content-type', 'text/html'), ('date', 'sun, 09 sep 2018 01:55:22 gmt'), ('etag', '"

3dd8-574017538cf80"'), ('expires', 'mon, 10 sep 2018 01:55:22 gmt'), ('last-modified', 'wed, 22 aug 2018 07:54:54 gmt'), ('p3p', 'cp=" oti dsp cor iva our ind com "'), ('server', 'apache'), ('set-cookie', 'baiduid=6cb7f07e4a04ffc8e20146d1cfa3e328:fg=1; expires=mon, 09-sep-19 01:55:22 gmt; max-age=31536000; path=/; domain=.baidu.com; version=1'), ('vary', 'accept-encoding,user-agent'), ('connection', 'close')]

獲取頭部指定屬性的資訊

print("輸出頭部屬性資訊",s.getheader("server"))
輸出

輸出頭部屬性資訊 apache
檢視響應狀態資訊

print

("檢視狀態響應資訊",s.status)

輸出

檢視狀態響應資訊 200
檢視響應url位址

檢視響應url位址 

print(page.decode("utf-8"))

前者會輸出十六進製制的資訊,後者會以「utf-8」格式正常輸出,限於幅度,可以自行測試。

print(s.info().items())
輸出

01:55:22 gmt; max-age=31536000; path=/; domain=.baidu.com; version=1'), ('vary', 'accept-encoding,user-agent'), ('connection', 'close')]小技巧,可以用 dir(s.info())方法檢視他下面所有包含的使用方法

麥子學院python教程 django入門

1 django的安裝和基本使用 2 django的helloworld執行 1 在blog 自定義的 資料夾中有乙個views.py,這是處理檢視的檔案,from django.shortcuts import render 引入該模組 定義了乙個函式,並返回乙個要在介面中顯示的檢視 2 需要將上...

python爬蟲小程式 python爬蟲學習小程式

coding utf 8 name 模組1 purpose author mrwang created 18 04 2014 licence import urllib def main url html urllib.urlopen url print html.read 讀取內容 print h...

python爬蟲基礎

一 什麼是爬蟲 通常爬蟲是從某個 的某個頁面開始,爬取這個頁面的內容,找到網頁中的其他鏈結位址,然後從這個位址爬到下乙個頁面,這樣一直不停的爬下去,進去批量的抓取資訊。那麼,我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。二 爬蟲的基本流程 1,發起請求 向目標站點傳送乙個requests請...