python lxml爬取網頁內容

2021-09-28 11:00:50 字數 1545 閱讀 9078

from lxml import etree

import requests

url =

""response = requests.get(url)

text = response.text

html = etree.html(text)

先獲取到這個頁面的html,對了,這裡還用到了xpath來選擇節點,具體用法請參考文章python_xpath
#選中class="review-list  "的div

div = html.xpath(

'//div[@class="review-list "]')[

0]lists = div.xpath(

'./div'

)

for item in lists:

name = item.xpath(

'.//a[@class="name"]/text()')[

0]time = item.xpath(

'.//span[@class="main-meta"]/text()')[

0]comment = item.xpath(

'.//div[@class="short-content"]/text()')[

0]print

('使用者:'

+name+

'\n'

++comment+

'\n'

++time+

'\n\n'

)

from lxml import etree

import requests

url =

""response = requests.get(url)

text = response.text

html = etree.html(text)

#選中class="review-list "的div

div = html.xpath(

'//div[@class="review-list "]')[

0]lists = div.xpath(

'./div'

)for item in lists:

name = item.xpath(

'.//a[@class="name"]/text()')[

0]time = item.xpath(

'.//span[@class="main-meta"]/text()')[

0]comment = item.xpath(

'.//div[@class="short-content"]/text()')[

0]print

('使用者:'

+name+

'\n'

++comment+

'\n'

++time+

'\n\n'

)

好了,到此為止簡單的爬取html內容就完成啦!

萌新初次接觸,仍在學習中,文章內容毫無營養,只用於記錄!

Python 爬取網頁

先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...

Python爬蟲入門 爬取某個網頁的小說內容

匯入必要的包 import requests import re要爬的網頁 url 模擬瀏覽器傳送http請求 response requests.get url 改變編碼方式 response.encoding utf 8 獲取目標 的網頁原始碼 html response.text獲取 的名字 ...

qt爬取網頁資訊 簡單幾步完成網頁資訊爬取

什麼是爬蟲 2.爬蟲能幹些什麼 爬蟲能夠做到哪些應用,上面已經提到一點是可以批量爬取網頁的資料資訊,並用於後續業務研究 爬蟲還可以爬取深層次的使用者個人資訊 恭喜你,到這一步就離查水表不遠了 個人理解淺薄請大家補充 3.爬蟲幾大步驟 網頁資料爬蟲 python 3.1 導包 3.2 請求資料 請求資...