豆瓣評論第一頁爬取

import requests
# 先進行第一次安裝
from lxml import etree
import pandas as pd
url=""
r=requests.get(url).text
s=etree.html(r)
# 獲取文字內容用text(),觀察下面獲取的第乙個、第二個文字內容時的xpath後面尋找資料的引數的變化（瀏覽器複製方法）
# print(s.xpath('//*[@id="comments"]/ul/li[1]/div[2]/p/span/text()'))
# print(s.xpath('//*[@id="comments"]/ul/li[2]/div[2]/p/span/text()'))
#print(s.xpath('//*[@id="comments"]/ul/li/div[2]/p/span/text()'))
file=s.xpath('//*[@id="comments"]/ul/li/div[2]/p/span/text()')
df=pd.dataframe(file)
# df.to_csv('pinglun.xlsx')
df.to_excel('pinglun2.xlsx')
# 這裡執行結果顯示modulenotfounderror: no module named 'openpyxl'，所以需要安裝這個庫，這個庫是儲存excel檔案的依賴庫,最好使用
# csv形式，但比較寫入的結果而言，to_excel的結果更為規範
# 嘗試手寫
print(s.xpath('//div[@class="comment"]/p/span/text()')[0])
print("\n".join(s.xpath('//div[@class="comment"]/p/span/text()')))
# 也可以通過其他方式獲取文字內容
# 獲取第乙個
print(s.xpath('//*[@id="comments"]/ul/li[position()=1]/div[2]/p/span/text()'))
# 獲取最後乙個p
print(s.xpath('//*[@id="comments"]/ul/li[last()]/div[2]/p/span/text()'))

xpath是乙個非常好用的方法，可以靈活多樣的尋找我們需要的資料。

接下來就要進行思考如何爬取多頁的資料。當然，要遵守robots.txt協議。

爬蟲爬取京東商品評論（第一頁）

知識點網頁分析，使用json提取頁面內容。通過源可以發現資料在json之中。response字典部分即為json格式。刪除fetchjson comment98 通過json.cn解析。所以需要爬取的內容，直接從json裡面提取即可。import requests url headers res...

python爬取糗百第一頁的笑話

自學python網路爬蟲，發現request比urllib還是要好用一些，因此利用request和beautifulsoup來實現糗百的首頁笑話的抓取。beautifulsoup通過find和findall以及利用正規表示式實現html對應模組的抓取，當然select也是乙個不錯的選擇。下面是臨時的...

日記本的第一頁

有很多人去聽一位哲學家講授人生成功的秘訣，結果那位哲學家給每位聽眾一本小冊子，上面有個寓言故事，人們看了以後，都覺得受益匪淺。相信自己是乙隻雄鷹乙個人在高山之巔的鷹巢裡，抓到了乙隻幼鷹，他把幼鷹帶回家，養在雞籠裡。這只幼鷹和雞一起啄食嬉鬧和休息。它以為自己是乙隻雞。這隻鷹漸漸長大，羽翼豐滿了，...

豆瓣評論第一頁爬取

爬蟲爬取京東商品評論（第一頁）

python爬取糗百第一頁的笑話

日記本的第一頁

相關推薦