新聞採集器

2022-05-09 06:45:07 字數 1243 閱讀 1746

新聞採集器是將非結構化的新聞文章從多個新聞**網頁中抽取出來儲存到結構化的資料庫中的軟體。

主要功能

根據使用者自定義的任務配置,批量而精確地抽取目標網路**欄目中的新聞或文章,轉化為為結構化的記錄(標題,作者,內容,採集時間,**,分類,相關等),儲存在本地資料庫中,用於內部使用或外網發布,快速實現外部資訊的獲取。

主要技術

新聞採集器核心技術是模式定義和模式匹配。模式屬於人工智慧的術語,意思為物體前人積累的經驗的抽象和昇華。簡單地說,就是從不斷重複出現的事件中發現和抽象出的規律,是解決問題的經驗的總結。只要是一再重複出現的事物,就可能存在某種模式。

所以要讓新聞採集器能夠執行,目標**必須具備重複出現的特徵。目前大多**都是動態生成的,這樣就會讓同一模板的頁面包含相同的內容,新聞採集器正是利用這些相同的內容來定位採集資料的。

新聞採集器中的模式大多不是程式自動發現的,目前幾乎所有的新聞採集器產品都需要通過人工來定義。但模式本身是個很複雜,很抽象的內容,所以所有的開發者精力都花在怎樣讓模式定義更簡單,更準確,這也是新聞採集器競爭力的衡量標準。

但我們怎樣來描述模式呢,目前技術主要有兩種方式:正規表示式定義和文件結構定義。

正規表示式定義

正規表示式定義是目前主流應用的技術,主要代表為火車頭採集器。此技術簡單,靈活性高。但使用者操作複雜。由於此模式作用於網頁的源**上,因此匹配的結果受**版面格式影響比較大,並且也不夠直觀,對比較複雜的頁面結構幾乎無能為力。 目前已經有幾款產品使用輔助工具來減低使用者的操作難度。

文件結構定義

文件結構定義應該說它是目前最先進的技術,已經具備一定的模式學習能力。此模式作用於文件這一層,不同於正規表示式作用於頁面源**。所謂文件這一層,指的是源**執行後所生成的實際物件,即使用者在瀏覽器所看到的內容。所以操作視覺化是此技術天生就具備的能力。

由於它是對文件結構進行匹配,所以它不受頁面源**的影響,使用者定義比較直觀,並且程式能夠根據文件物件獲取更多的邏輯上的特徵資訊,匹配更準確,通用性更強。

此技術在學術研究**上已經呈現過,也在幾家實驗室開發出此類產品。但真正在商業上應用很少。

目前能夠面向普通大眾的,只有dm實驗室推出的視採採集器[1],該產品不僅在技術起點上比較高,而且在使用者使用這一層上,所獨有的實時使用者操作嚮導功能也是讓人驚奇的,此技術讓專業級操作變為傻瓜式操作,真是科學讓一切變為可能!

代表

戶外遠端聲音採集器 智慧型資料採集器YCWL A1

一 產品介紹 1.產品概述 智慧型資料採集器ycwl a1 採用全工業化硬體設計,適用於戶外多變複雜的工作環境。採集器可直連運營商網路訊號,幫助使用者節省佈線成本,免除大規模施工煩惱。同時,儀器還設計了gps定位和gprs傳輸方式,可滿足使用者對終端裝置實時 動態監控的需求。採集器支援海量資料上傳 ...

天涯文章採集器

using system using system.collections.generic using system.text using linttools using system.web using system.net using system.io using system.text.re...

mqtt資料採集器

圖1 mqtt閘道器發布資訊 上海卓嵐的mqtt閘道器zlan5143d起到將普通的串列埠資料 modbus rtu資料等轉化為mqtt協議的作用,通過連線伺服器 訂閱和發布主題來實現傳統裝置和mqtt雲端的聯絡。例如,筆記本和手機都向mqtt伺服器訂閱了訊息主題為溫度的訊息,當mqtt閘道器向這個...