python爬取糗事百科的標題和內容

2021-08-15 09:00:34 字數 668 閱讀 7612

這篇文章基於python3來編寫,這裡使用來xpath來解析資料,由於糗事百科的反爬機制,這裡我們需要加入header資訊,我認為最主要的就是解析資料這塊,我推薦這個部落格,博主由淺入深的解釋來如何來使用xpath來獲取我們需要的節點,在xpath中,返回的是乙個元素,我們可以繼續對這個元素進行xpath解析,這裡主要是方法的簡要介紹,就只提取來乙個頁面的內容

import requests

from lxml import etree

from bs4 import beautifulsoup

import re

page=1

url = '' + str(page)

headers=

html = requests.get(url=url,headers=headers).text

selector = etree.html(html)

list=selector.xpath('//div[@id="content-left"]/div')

for l in list:

print("name"+str(l.xpath('div/a/h2/text()')).replace("\\n",""))

print("content"+str(l.xpath('a/div/span

python 爬取糗事百科

step 1 構建乙個提取糗事百科笑話的函式import urllib2 import urllib import re import thread import time import sys reload sys sys.setdefaultencoding utf 8 defgetpage p...

Python爬取糗事百科

一 引入模組 因為urlopen功能比較簡單,所以設定 ip需引入proxyhandler和build opener模組,ip的獲取可以上西祠 查詢 import re from urllib.request import request,build opener,proxyhandler base...

Python 爬取糗事百科

coding utf 8 import urllib2 import urllib import re class qiushi def init self self.page 1 從網頁獲取糗事 def getqiushis self,page url page 偽裝瀏覽器 user agent ...