py 爬蟲入門 記 urlopen 函式

2021-08-24 17:38:15 字數 809 閱讀 4408

urlopen() 函式。

proxies =

filehandle = urllib.urlopen(some_url, proxies=proxies)

filehandle = urllib.urlopen(some_url, proxies={})

filehandle = urllib.urlopen(some_url, proxies=none)

filehandle = urllib.urlopen(some_url)

cafile、capath、cadefault 引數:用於實現可信任的ca證書的http請求。(基本上很少用)

context引數:實現ssl加密傳輸。(基本上很少用)

開啟url所指示的網路上的物件->返回乙個類檔案物件。

該物件擁有以下方法:read(),readline(),readlines(),fileno(),close(),info(),getcode() 和geturl(),同時也支援iterator。

**read():**response = urllib.request.urlopen(「 -> print(response.read().decode(「utf-8」))

geturl():重定向時,可用geturl()獲得真實的url。

getcode():提交的url不是乙個http的url,那麼getcode()方法返回none,否則返回http響應傳送回來的http狀態碼。

py爬蟲概覽

1 發起請求 使用http庫向目標站點發起請求,即傳送乙個request request包含 請求頭 請求體等 request模組缺陷 不能執行js 和css 2 獲取響應內容 如果伺服器能正常響應,則會得到乙個response 3 解析內容 解析html資料 正規表示式 re模組 第三方解析庫如b...

Py爬蟲自學路線

1.json資料格式 2.python3中的urllib包 官方文件 中文翻譯版 request物件 urllib.parse包 3.http請求頭中user agent使用者 4.重定向 7.utf 8轉換工具 utf 8 unicode acsii學習 8.向檔案追加內容 9.yield使用方法...

記一次Python爬蟲入門

程式思路 程式步驟 2 分析該網頁的 3 findall查詢出所有的url,儲存到list中 4 遍歷list,儲存到本地 程式原始碼 請求網頁 import time import requests import re import os 請求頭部 headers response request...