爬蟲100大球星

2021-09-27 06:51:30 字數 1320 閱讀 4231

2023年11月6日

no comments

article

#! /usr/bin/env python

#coding=utf-8

import urllib

import urllib2

import re

import os

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class bdtb:

def __init__(self):

self.url = ""

self.pageindex = 1

self.headers =

def getpage(self):

while self.pageindex <= 4:

try:

url = self.url + str(self.pageindex)

#print url

req = urllib2.request(url,headers = self.headers)

resp = urllib2.urlopen(req)

content = resp.read().encode('utf-8')

#print content

patterns = re.compile("(1*dd*、)(w*s?w*)")#正規表示式匹配

#print 'hello'

#print patterns

items = re.findall(patterns,content)

#print items

for item in items:

print (str(item[0])+str(item[1])).encode('cp936')

except urllib2.urlerror,e:

if hasattr(e,'code'):

print e.code

if hasattr(e,'reason'):

print e.reason

finally:

self.pageindex += 1

return true

bdtb = bdtb()

bdtb.getpage()

categories:python, 爬蟲

電子郵件位址不會被公開。 必填項已用*標註

姓名 *

電子郵件 *

站點 您可以使用這些html標籤和屬性:

python爬蟲 豆瓣電影TOP100

背景 借我 謝春花 今天學習學得頭大,放鬆之餘,水一篇文章好了 用python爬蟲豆瓣電影top100的簡易資訊 要收集的資訊包括 每部電影的標題 導演 上映年份 評分以及引用。環境 python 2.7 系統 macos 10.13.1 模組 beautifulsoup requests pand...

爬蟲 爬取貓眼TOP100

原文崔慶才 python3網路爬蟲實戰 目標 熟悉正規表示式,以及爬蟲流程 獲取貓眼top100榜單 1 分析 目標站點為需要獲取 top100榜單的影片名稱 主演 上映時間 地區 評分等資訊都直接顯示在network對應的response中,可解析對應的html進行獲取。且從第1頁到第二頁,url...

python爬蟲爬取貓眼電影Top100

很早就對爬蟲有所耳聞,於是乎就在網上買了一本python爬蟲的書,在學習的過程中也想做一些筆記與大家分享分享,勿噴 2.1.貓眼電影top100 2.2.f12開啟控制台,在response中找到需要的頁面資訊 如圖 2.3.發現每一部電影都是乙個dd標籤,我們需要爬取它的排名 位址 電影名稱 主演...