今天心血來潮,寫了個python的小爬蟲

2021-06-17 21:15:20 字數 1112 閱讀 3905

昨天晚上看看python,比較高興,今天照著教程寫了個小例子

主要用到了python中的正規表示式re和網路urllib2,

下面我附上全部**

其實downurl這個的功能是最核心的,應為整個爬蟲扒取網頁的主要功能就是由他實現的

#coding=utf-8

import urllib2

import re

def downurl(url,filename):

try:

fp=urllib2.urlopen(url)

except:

print 'download exception'

return 0

op = open(filename,"wb")#趴下來的網頁存這裡

while 1:

s = fp.read()

if not s:

break

op.write(s)

fp.close()

op.close()

return 1

def geturl(url):#使用正規表示式進行url的挖掘

try:

fp = urllib2.urlopen(url)

except:

print 'get url exception'

return

pattern = re.compile("")#正規表示式匹配

while 1:

s = fp.read()

if not s:

break

urls = pattern.findall(s)

fp.close()

return urls

def spider(starturl,times):#爬蟲

urls =

i=0;

while 1:

if i>times:

break

if len(urls)>0:

url = urls.pop(0)

print url,len(urls)

downurl(url,str(i)+'.htm')#趴下來的網頁

i=i+1

if len(urls)

心血來潮學python

第一次見python就被吸引了,嗯,前面在linux下除錯過一些小段 最近工作都在windows下面,也懶得換去unbuntu,所以想著在win下安裝python。之前不知道用什麼方法裝的python,反正有這麼幾個應用程式python ide,python command line 但是,在cmd...

心血來潮之朋友的一道華為筆試題 德州撲克

一副牌中的五張撲克牌,牌型1 同花順 同一花色的順子 牌型2 四條 四張相同數字 單張 牌型3 葫蘆 三張相同的數字 一對 牌型4 同花 同一花色 牌型5 順子 花色不一樣的順子 牌型6 三條 三張相同 兩張單 牌型7 其他 說明 前面的牌型比後面的牌型大 輸入由五行組成,如 3 h 4 h5 h ...

今天寫了乙個呼叫儲存過程的方法

1 介面 呼叫儲存過程 param procname 儲存過程名.如 testprocparam mypack.testprocparam param inparams 輸入引數對映物件.格式為 索引號 值 param outtypes 輸出引數型別對映物件.格式為 索引號 型別 return ma...