python抓取初步嘗試

2021-07-24 12:29:10 字數 1545 閱讀 3932

pattern用了示例中例子,發現有些不對,自己修改了一下pattern

import urllib

import urllib2

import re

page =1

url = "******xx"+str(page)

user_agent='mozilla/4.0 (compatible; msie 5.5; windows nt)'

headers=

try:

request = urllib2.request(url,headers=headers)

response = urllib2.urlopen(request)

# filehandler = open("qiushi.html","w")

# filehandler.write(response.read())

content = response.read()

#the original filter

# pattern = re.compile('.*?.*?(.*?).*?(.*?)

(.*?)(.*?)',

# re.s)

pattern = re.compile('.*?.*?.*?.*?.*?(.*?)(.*?)

(.*?)(.*?)',

re.s)

items = re.findall(pattern, content)

for item in items:

print item[0]

print item[1]

print item[4]

#print response.read()

except urllib2.urlerror,e:

if hasattr(e,"code"):

print e.code

if hasattr(e,"reason"):

print e.reason

返回結果如下(只列舉部分內容):

八妹~小尤物

今天我姐和我說,她丟人丟大發了。我問她怎麼了,她說她帶小外甥去遊樂場玩,也想玩那種滾筒式的滑滑梯。趁工作人員不注意就滑了一下,沒想到卡在了中間,幾個工作人員費了好大的勁才把她拔出來!

5044

好笑人超市打折。。。

374匪徒~寵兒

經理帶著他的寵物狗來公司,狗狗跑到我辦工桌下蹲著就不走了。不管經理怎麼叫也不出來,於是經理對狗狗說:「她不是單身狗,她有男朋友了。」   那狗成精了,爬起來就跑。。

4222

如風(^_^)

早起停電,老媽打**問,答覆是電路故障。我手機沒電有點捉急,老媽說,不要急啊,電工一定第一時間修好的,他老婆在附近開了小飯館,沒電做不了飯,他比你急……

2593

八妹~小尤物

晚上我爸打**給我,著急的說:「你媽出去買宵夜了,出門兩個小時了還沒回來,手機也打不通。」

當時我就急了,說咋辦啊?

我爸說:「你快打**給她,真怕她吃完了空著手回來!」

2833

初步嘗試python爬蟲

一直想學習爬蟲 直到最近兩天 才開始了學習 以下嘗試了requests和beautifulsoup的基本用法 抓取了豆瓣新書速遞的 並以書名對進行命名 請各位看官多多指教 如果有人看的話 import requests from bs4 import beautifulsoup as bs url ...

gearman初步嘗試

網上安裝使用的資料已經一堆了 這個也給大家彙總一下,比較高階的幾個。在乙個別人安裝的gearman系統下,進入root許可權 搜尋gearman所在路徑 whereis gearman 得到gearman usr bin gearman usr share man man1 gearman.1.gz...

Docker Remote API 初步嘗試

1 首先是安裝 docker 這裡就不說了 2 檢視一下 docker api的版本 sudo docker version client version 1.10.2 api version 1.22 go version go1.5.3 git commit c3959b1 built mon ...