網際網路資訊挖掘技術 作者 章成敏 章成志

2021-04-13 04:42:11 字數 2422 閱讀 8152

摘 要 本文就網際網路資訊挖掘技術進行了簡介,對網路資訊挖掘中的關鍵技術、系統流程進行了闡述,結合農業網路資訊挖掘系統的開發及應用,指出網路資訊挖掘的應用前景。

about the wdm technology

zhang chengzhi

(department of information management,nanjing agriculturl university,nanjing 210095)

abstract this ***** introduces the web data mining (wdm) expoundes the key technology,the system process of the wdm,then use the agricultural web data mining (awdm) as a example,declare that the wdm has good foreground in the practice.

keywords data mining, internet,web pages,information extration

一、概 述

二、網路資訊挖掘技術中的關鍵技術及系統流程

1.網路資訊挖掘中的關鍵技術

(1)目標樣本的特徵提取

網路資訊挖掘系統採用向量空間模型(vector space modal,v**),用特徵詞條(t1,t2,…,tn)及其權值wi代表目標資訊,在進行資訊匹配時,使用這些特徵項評價未知文字與目標樣本的相關程度。特徵詞條及其權值的選取稱為目標樣本的特徵提取,特徵提取演算法的優劣將直接影響到系統的執行效果。詞條在不同內容的文件中所呈現出的頻率分布是不同的,因此可以根據詞條的頻率特性進行特徵提取和權重評價。

乙個有效的特徵項集應該既能體現目標內容,也能將目標同其它文件相區分,因此詞條權重的正比於詞條的文件內頻數,反比於訓練文字內出現該詞條的文件頻數。構造如下特徵項權值評價函式:

weight(word)= tfik*idfi= tfik*log(n/nk+1)

其中tfik表示詞條tk在文件di中的出現頻數,idfi為逆文件頻數,n表示全部目標樣本的文件數,nk表示出現詞條tk的文件數。若考慮詞長因素,可進行標準化處理可得:

weight(word)=tfik*log(n/nk+1)/

與普通的文字檔案相比,html文件中有明顯的識別符號,結構資訊更加明顯,物件的屬性更為豐富。系統在計算特徵詞條權值時,充分考慮html文件的特點,對於標題和特徵資訊較多的文字賦予較高權重。為了提高執行效率,系統對特徵向量進行降維處理,僅保留權值較高的詞條作為文件的特徵項,從而形成維數較低的目標特徵向量。

(2)中文分詞處理

英文的句子以空格作為固定的分隔符,而中文中沒有,這給中文資訊處理帶來很大障礙,例如計算機無法區分「球拍買了」到底是「球拍,買了」,還是「球,拍賣了」,因此在進行詞頻統計等處理前先要進行詞條切分處理。比較簡單有效的分詞方法是基於大型詞庫的機器分詞法。通用詞庫包含了大量不會成為特徵項的常用詞彙,為了提高系統執行效率,系統根據挖掘目標建立專業的分詞表,這樣可以在保證特徵提取準確性的前提下,顯著提高系統的執行效率。

進行詞條切分時,先根據標點進行粗切分,然後再分別使用正向和逆向最大匹配法進行細切分。在進行詞頻統計時,考慮到自然語言的多樣性,系統建立並使用相應的同義詞典、相關詞詞典等輔助詞典,以提高資訊匹配的準確度。

(3)獲取網路中的動態資訊

robot是傳統搜尋引擎的重要組成部分,它依照http協議讀取web頁面並根據html文件中的超鏈在www上進行自動漫遊,robot也被稱為spider、worm或crawler。但robot只能獲取web上的靜態頁面,而有價值的資訊往往存放在網路資料庫中,人們無法通過搜尋引擎獲取這些資料,只能登入專業資訊**,利用**提供的查詢介面提交查詢請求,獲取並瀏覽系統生成的動態頁面。網路資訊挖掘系統則通過**提供的查詢介面對網路資料庫中的資訊進行遍歷,並根據專業知識庫對遍歷的結果進行自動的分析整理,最後匯入本地的資訊庫。

2.網路資訊挖掘技術實現流程

圖1給出了網路資訊挖掘技術實現的總體流程圖,分別對其中的每個步驟解釋如下:

第一步:確立目標樣本,即由使用者選擇目標文字,作為提取使用者的特徵資訊;

第二步:提取特徵資訊,即根據目標樣本的詞頻分布,從統計詞典中提取出挖掘目標的特徵向量並計算出相應的權值;

第三步:網路資訊獲取,即先利用搜尋引擎站點選擇待採集站點,再利用robot程式採集靜態web頁面,最後獲取被訪問站點網路資料庫中的動態資訊,生成www資源索引庫;

第四步:資訊特徵匹配,即提取索引庫中的源資訊的特徵向量,並與目標樣本的特徵向量進行匹配,將符合閾值條件的資訊返回給使用者。 

三、網路資訊挖掘技術的應用前景

參 考 文 獻

1. gudivada v n.information retrieval on the world wide web.ieee internet computing,11997,1(5):58~68

2. 李水平.資料採掘技術回顧.小型微型計算機系統,1998,19(4):74~81

網際網路最近技術應用1 網際網路電視

網路電視 ntv,network television 是以寬頻網路為載體,以視音訊多 為形式,以互動個性化為特性,為所有寬頻終端使用者提供全方位有償服務的業務。網路電視是在數位化和網路化背景下產生,是網際網路絡技術與電視技術結合的產物,在整合電視與網路兩大傳播媒介過程中,網路電視既保留了電視形象直...

網際網路技術DIY LEARNING A

python基礎語法 資料結構 numpy pandas 展示資料 matplotlib 機器學習方法 tcfs 去中性化?分布式檔案系統 堡壘 大型根節點伺服器?可監控 tensorflow gpu nosql mongdb 主從資料庫多節點備份,壞時自動頂上 臨時master 好時自動恢復 原先...

網際網路接入技術簡介

1.1 網際網路接入技術 網際網路 internet 是世界上規模最大的網際網路絡,讓我們的計算機連線到廣闊的網際網路海洋是盡情衝浪的基礎和前提。網際網路接入技術 internet access technology 是指連線網際網路使用者 subscriber 一般是私人使用者和商業機構 和網際網...