Python 爬取糗事百科

2021-09-02 09:10:51 字數 1316 閱讀 9665

# coding=utf-8

import urllib2

import urllib

import re

class qiushi:

def _init_(self):

self.page = 1

# 從網頁獲取糗事

def getqiushis(self,page):

#**url = ""+page

#偽裝瀏覽器

user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'

headers =

#請求req = urllib2.request(url,headers = headers)

response = urllib2.urlopen(req)

html = response.read()

#encode的作用是將unicode編碼轉換成其他編碼的字串

#decode的作用是將其他編碼的字串轉換成unicode編碼

unicodehtml = html.decode("utf-8")

items = re.findall('(.*?)

',unicodehtml,re.s)

contents =

for item in items:

# item 中第乙個是div的標題,也就是時間

# item 中第二個是div的內容,也就是內容

return contents

#列印糗事

def showqiushi(self,contents):

count = 1

for content in contents:

print "第%d條糗事" % count,content[0],"\n"

print content[1],"\n"

count += 1

#啟動def start(self):

page = 1

while page < 5:

print "第%d頁:\n" % page

python 爬取糗事百科

step 1 構建乙個提取糗事百科笑話的函式import urllib2 import urllib import re import thread import time import sys reload sys sys.setdefaultencoding utf 8 defgetpage p...

Python爬取糗事百科

一 引入模組 因為urlopen功能比較簡單,所以設定 ip需引入proxyhandler和build opener模組,ip的獲取可以上西祠 查詢 import re from urllib.request import request,build opener,proxyhandler base...

Python 爬取糗事百科

coding utf 8 import urllib2 import urllib import re class qiushi def init self self.page 1 從網頁獲取糗事 def getqiushis self,page url page 偽裝瀏覽器 user agent ...