python爬取糗百內容

2022-02-05 21:42:40 字數 900 閱讀 8651

#-*- coding: utf-8 -*-

import urllib

import urllib2

import re

#頁面為1

page=1

url=''+str(page)

#需要header驗證

user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'

headers =

try:

#獲取位址

request=urllib2.request(url,headers=headers)

#開啟連線

response=urllib2.urlopen(request)

#輸出讀取內容

#print response.read()

content=response.read().decode('utf-8')

# 去奇趣百科找不帶的段子結構,匹配正則,糗百的標籤會不定時改變,正則可能要重新匹配

pattern = re.compile(

'(.*?).*?vote.*?number">(.*?).*?comments.*?number">(.*?)',

re.s)

#(.*?).*?(.*?)

items=re.findall(pattern,content)

for item in items:

print item[0],item[1],item[3]

except urllib2.urlerror,e:

if hasattr(e,'code'):

print e.code

if hasattr(e,'reason'):

print e.reason

python爬取糗百第一頁的笑話

自學python網路爬蟲,發現request比urllib還是要好用一些,因此利用request和beautifulsoup來實現糗百的首頁笑話的抓取。beautifulsoup通過find和findall以及利用正規表示式實現html對應模組的抓取,當然select也是乙個不錯的選擇。下面是臨時的...

Python爬取網頁內容

其時序圖如圖所示。給定乙個要訪問的url,獲取這個html及內容,遍歷html中的某一類鏈結,如a標籤的href屬性,從這些鏈結中繼續訪問相應的html頁面,然後獲取這些html的固定標籤的內容,如果需要多個標籤內容,可以通過字串拼接,最後通過正規表示式刪除所有的標籤,最後將其中的內容寫入.txt檔...

PYTHON爬蟲學習 糗事百科內容爬取

改了半天,終於按照自己的設想把這東西做出來了,趕快把自己的心得寫下來。首先上原始碼 先觀察各網頁間的 規律,構建出 變數,通過for迴圈實現多頁內容的爬取 構建乙個自定義的函式,來爬取我們想要的內容 開始還是模擬chrome瀏覽器進行訪問。因為爬取的主要是使用者的id和使用者發表的段子這倆部分內容,...