pythpn學習爬蟲爬取糗事百科熱門段子

根據別人寫的教程學習的由於現在糗事百科那個**進行了修改原來使用的正規表示式不適用了自己重新寫的正規表示式可以爬取熱門段子的作者內容發布時間讚數

#__author youngkl
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
page = 1
url = '' + str(page)
user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'
headers = 
try:
request = urllib2.request(url,headers = headers)
response = urllib2.urlopen(request)
content=response.read().decode('utf-8')
# pattern=re.compile('.*?.*?(.*?).*?(.*?)
(.*?)(.*?)',re.s)
pattern=re.compile(r'.*?\n\n(.*?)\n
\n.*?\n+(.*?)\n\n+
\n.*?(.*?)',re.s)
# pattern = re.compile(r'.*?\n\n\n\n(.*?).*?\n
\n+\n+(.*?)\n\n+
\n+[\s\s]*?\n(.*?).*?',re.s)
items=re.findall(pattern,content)
# print page
for item in items:
print item[0],item[1],item[2],item[3]
# ,item[1],item[2],item[3],item[4]
# print response.read()
except urllib2.urlerror, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason

PYTHON爬蟲學習糗事百科內容爬取

改了半天，終於按照自己的設想把這東西做出來了，趕快把自己的心得寫下來。首先上原始碼先觀察各網頁間的規律，構建出變數，通過for迴圈實現多頁內容的爬取構建乙個自定義的函式，來爬取我們想要的內容開始還是模擬chrome瀏覽器進行訪問。因為爬取的主要是使用者的id和使用者發表的段子這倆部分內容，...

python爬蟲（一）爬取糗事百科

最近需要收集語料，因此學習了一些爬蟲的知識，參考網上對糗事百科的爬蟲，編寫了如下 usr bin env python coding utf 8 import re from urllib import request for page in range 1,2 print page url str...

爬蟲實戰（二）爬取糗事百科段子

源為 from urllib.request import request,urlopen import requests import re import time def gethtml url headers 設定虛擬headers資訊 request request url,headers...

pythpn學習 爬蟲爬取糗事百科熱門段子

PYTHON爬蟲學習 糗事百科內容爬取

python爬蟲（一）爬取糗事百科

爬蟲實戰（二） 爬取糗事百科段子

相關推薦

pythpn學習爬蟲爬取糗事百科熱門段子

PYTHON爬蟲學習糗事百科內容爬取

爬蟲實戰（二）爬取糗事百科段子