python 網頁內容抓取

使用模組：

import urllib2

import urllib

普通抓取例項：

#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
url = ''
#建立request物件
request = urllib2.request(url)
#傳送請求，獲取結果
try:
response = urllib2.urlopen(request)
except baseexception, err:
print err
exit()
#獲取狀態碼，如果是200表示獲取成功
code = response.getcode()
print code
#讀取內容
if200 == code:
content = response.read() 
print content

get請求抓取例項：

#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import urllib
#urllib2使用get方式的請求
url = '/s'
values = 
# 必須編碼 
data = urllib.urlencode(values) 
url = url + '?' + data 
print url
#url == /s?wd=%e8%bd%a6%e4%ba%91
#建立request物件
request = urllib2.request(url)
#傳送請求，獲取結果
try:
response = urllib2.urlopen(request)
except baseexception, err:
print err
exit()
#獲取狀態碼，如果是200表示獲取成功
code = response.getcode()
print code
#讀取內容
if200 == code:
content = response.read() 
print content

網頁內容抓取

之前採用xpath和正規表示式對網頁內容進行抓取，發現在有的地方不如人意，就採用了htmlparser對頁面進行解析，抓取需要的東西。htmlparser有點不好的地方在於不能對starttag和endtag進行匹配。採用了兩種方法進行抓取。第一種，抓取成對的tag之間的內容，採用了queue.qu...

c 抓取網頁內容

新增的引用 using system.net using system.io using system.io.compression 1.webclient mywebclient new webclient mywebclient.credentials credentialcache.defau...

C 抓取網頁內容

1 抓取一般內容需要三個類 webrequest webresponse streamreader 所需命名空間 system.net system.io 核心 webrequest request webrequest.create webresponse response request.ge...

python 網頁內容抓取

網頁內容抓取

c 抓取網頁內容

C 抓取網頁內容

相關推薦