pythpn學習 爬蟲爬取糗事百科熱門段子

2021-07-04 04:59:06 字數 1140 閱讀 3741

根據別人寫的教程學習的 由於現在糗事百科那個**進行了修改 原來使用的正規表示式不適用了自己重新寫的正規表示式 可以爬取熱門段子的作者 內容 發布時間 讚數

#__author youngkl

# -*- coding:utf-8 -*-

import urllib

import urllib2

import re

page = 1

url = '' + str(page)

user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'

headers =

try:

request = urllib2.request(url,headers = headers)

response = urllib2.urlopen(request)

content=response.read().decode('utf-8')

# pattern=re.compile('.*?.*?(.*?).*?(.*?)

(.*?)(.*?)',re.s)

pattern=re.compile(r'.*?\n\n(.*?)\n

\n.*?\n+(.*?)\n\n+

\n.*?(.*?)',re.s)

# pattern = re.compile(r'.*?\n\n\n\n(.*?).*?\n

\n+\n+(.*?)\n\n+

\n+[\s\s]*?\n(.*?).*?',re.s)

items=re.findall(pattern,content)

# print page

for item in items:

print item[0],item[1],item[2],item[3]

# ,item[1],item[2],item[3],item[4]

# print response.read()

except urllib2.urlerror, e:

if hasattr(e,"code"):

print e.code

if hasattr(e,"reason"):

print e.reason

PYTHON爬蟲學習 糗事百科內容爬取

改了半天,終於按照自己的設想把這東西做出來了,趕快把自己的心得寫下來。首先上原始碼 先觀察各網頁間的 規律,構建出 變數,通過for迴圈實現多頁內容的爬取 構建乙個自定義的函式,來爬取我們想要的內容 開始還是模擬chrome瀏覽器進行訪問。因為爬取的主要是使用者的id和使用者發表的段子這倆部分內容,...

python爬蟲(一)爬取糗事百科

最近需要收集語料,因此學習了一些爬蟲的知識,參考網上對糗事百科的爬蟲,編寫了如下 usr bin env python coding utf 8 import re from urllib import request for page in range 1,2 print page url str...

爬蟲實戰(二) 爬取糗事百科段子

源 為 from urllib.request import request,urlopen import requests import re import time def gethtml url headers 設定虛擬headers資訊 request request url,headers...