Python抓取網頁

2021-08-14 10:26:48 字數 1300 閱讀 6004

在python中,使用urllib2這個元件來抓取網頁。

# coding=utf-8

# urllib2是python的乙個獲取urls(uniform resource locators)的元件。

import urllib2

# 它以urlopen函式的形式提供了乙個非常簡單的介面

response = urllib2.urlopen('')

html = response.read()

print html

# 選擇檢視源**是完全一樣的內容

request物件來對映你提出的http請求

import urllib2

#對映提出的http請求

sname = string.zfill(i, 5) + '.html' # 自動填充成六位的檔名

f = open(sname, 'w+')

m = urllib2.urlopen(url + str(i)).read()

f.write(m)

f.close()

# -------- 在這裡輸入引數 ------------------

bdurl = ''

#ipostbegin = 1

# ipostend = 10

begin_page = 1 #int(raw_input(u'請輸入開始的頁數:\n'))

end_page = 10 #int(raw_input(u'請輸入終點的頁數:\n'))

# -------- 在這裡輸入引數 ------------------

# 呼叫

Python網頁抓取

coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...

python抓取網頁過程

準備過程 1.抓取網頁的過程 準備好http請求 http request 提交對應的請求 獲得返回的響應 http response 獲得網頁原始碼 2.get還是post 3.headers 可選 在某些情況下,直接抓取是被禁止的,此時需要提供乙個headers來告訴對方我不是機械人 例如 1 ...

python 網頁內容抓取

使用模組 import urllib2 import urllib 普通抓取例項 usr bin python coding utf 8 import urllib2 url 建立request物件 request urllib2.request url 傳送請求,獲取結果 try response...