python爬取糗百內容

#-*- coding: utf-8 -*-
import urllib
import urllib2
import re
#頁面為1
page=1
url=''+str(page)
#需要header驗證
user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'
headers = 
try:
#獲取位址
request=urllib2.request(url,headers=headers)
#開啟連線
response=urllib2.urlopen(request)
#輸出讀取內容
#print response.read()
content=response.read().decode('utf-8')
# 去奇趣百科找不帶的段子結構，匹配正則，糗百的標籤會不定時改變，正則可能要重新匹配
pattern = re.compile(
'(.*?).*?vote.*?number">(.*?).*?comments.*?number">(.*?)',
re.s)
#(.*?).*?(.*?)
items=re.findall(pattern,content)
for item in items:
print item[0],item[1],item[3]
except urllib2.urlerror,e:
if hasattr(e,'code'):
print e.code
if hasattr(e,'reason'):
print e.reason

python爬取糗百第一頁的笑話

自學python網路爬蟲，發現request比urllib還是要好用一些，因此利用request和beautifulsoup來實現糗百的首頁笑話的抓取。beautifulsoup通過find和findall以及利用正規表示式實現html對應模組的抓取，當然select也是乙個不錯的選擇。下面是臨時的...

Python爬取網頁內容

其時序圖如圖所示。給定乙個要訪問的url，獲取這個html及內容，遍歷html中的某一類鏈結，如a標籤的href屬性，從這些鏈結中繼續訪問相應的html頁面，然後獲取這些html的固定標籤的內容，如果需要多個標籤內容，可以通過字串拼接，最後通過正規表示式刪除所有的標籤，最後將其中的內容寫入.txt檔...

PYTHON爬蟲學習糗事百科內容爬取

改了半天，終於按照自己的設想把這東西做出來了，趕快把自己的心得寫下來。首先上原始碼先觀察各網頁間的規律，構建出變數，通過for迴圈實現多頁內容的爬取構建乙個自定義的函式，來爬取我們想要的內容開始還是模擬chrome瀏覽器進行訪問。因為爬取的主要是使用者的id和使用者發表的段子這倆部分內容，...

python爬取糗百內容

python爬取糗百第一頁的笑話

Python爬取網頁內容

PYTHON爬蟲學習 糗事百科內容爬取

相關推薦

PYTHON爬蟲學習糗事百科內容爬取