java爬蟲 之 搜狐新聞爬蟲(二)

2021-07-11 05:36:44 字數 754 閱讀 8096

在瀏覽器中右鍵檢查元素

那麼經過分析確定標籤可以得到下面的**:

elements h = doc.select("h1[itemprop]");//標題

system.out

.println(h.text());

elements time = doc.select("div.time");//時間

system.out

.println(time.text());

/* element source = doc.select("span[itemprop=name]").first();//**

system.out.println(source.text());

*///maybe 更好

elements source = doc.select("div[class=source]");

system.out

.println(source.text());

elements body = doc.select("div[itemprop=articlebody]");

system.out

.println(body.text());

執行一下得到結果:

每個**的結構不一樣,建議多試乙個網頁,以確保,抓取的標籤沒錯。

爬蟲學習 爬蟲之新浪新聞

學習資料參考 python網路爬蟲實戰 源程式如下 import requests import json from bs4 import beautifulsoup import pandas results zturl res requests.get zturl jd json.loads r...

使用Scrapy對新聞進行爬蟲(二)

scrapy框架下的item用於定義抓取的資料內容。實現從非結構化資料 網頁 中提取結構化資料時,結構化資料所用的資料結構即為該item scrapy.item 宣告乙個item類,scrapy匯入該模組並使用item例項來儲存結構化資料。所有資料的型別field實際是乙個dict的別名而已。開發者...

python之爬蟲(二)爬蟲的原理

在上文中我們說了 爬蟲就是請求 並提取資料的自動化程式。其中請求,提取,自動化是爬蟲的關鍵!下面我們分析爬蟲的基本流程 發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器響應 獲取響應內容解析內容 得到的內容可能是html,可以...