章一 導論 1

2021-04-12 17:15:41 字數 2202 閱讀 1070

章一 導論

由於人們認知能力的有限性,海量資訊在給人們帶來方便的同時也帶來了一大堆的問題。

第一是資訊超載,難以消化;

第二是有效資訊難以提取,真假資訊難以辨識;

第三是資訊保安難以保證,有意或無意的行為經常會威脅到資訊的安全;

第四是資訊形式不一致,既有結構化的資訊,也有非結構化的資訊,難以統一處理。

普通的資料庫系統雖然可以高效地實現資料的錄入、查詢、統計和維護等功能,並可以對資料做一些簡單分析處理,卻無法挖掘和提供資料背後隱含的、人們真正需要的有價值的知識。

資料探勘以一種全新的概念改變著人類加工和利用資訊的方式,使人們從單純的資訊收集、儲存、整理、利用、變無序資訊為有序資訊,向資訊整合、資訊創新、資訊再生產以及變資訊為知識的深層次加工等轉變。

資料探勘是一門新興的綜合性學科,它融合了其它許多學科領域的技術,包括資料庫技術、統計分析、機器學習、高效能計算、模式識別、神經網路、資料視覺化、資訊檢索、影象資料庫與訊號處理以及空間資料分析等;能從更深層次挖掘存在於資料內部的、有效的、新穎的、具有潛在效用的、乃至最終可理解的模式和知識。

發現的知識可以被用於資訊管理、查詢優化、決策支援、過程控制等,還可以用於資料自身的維護。

一、資料探勘

data mining資料探勘也叫資料開採,是從大量的、不完整的、有雜訊的、模糊的和隨機的資料中,提取隱含在其中的、人們事先不知道的、但又是潛在而有用的資訊和知識的過程。也有稱它為:知識抽取knowledge extraction、資料考古學data archaeology、資料捕撈data dredging等。

通俗地講,資料探勘就是通過對大量業務資料進行抽取、轉換、分析和模型化處理,將資料轉化為有價值的知識的過程。

有幾層含義:

1)資料來源必須是真實的、大量的、含雜訊的;

2)發現的是使用者感興趣的知識;

3)發現的知識是可接受的、可理解的、可運用的;

4)發現的知識是相對的、有特定前提和約束條件的、面向特定領域的,並不要求放之四海而皆準,並且最好能用自然語言表達。

此定義包含三方面的內容,即資料、資訊和知識、過程。

(1)資料是指有關事實的集合,它記錄了事物有關方面的原始資訊,是進一步挖掘知識的原材料。由於資料探勘處理的資料是現實世界的客觀反映,因而並不能保證所有資料都非常規範,一般需要對資料進行預處理,使之適合知識提取。

(2)資訊和知識是指通過資料探勘從當前資料中發現的資訊和知識,它們源於資料,又高於資料。發現新的知識或者對已有的知識進行拓展,得到更全面、更具有實際意義的知識往往更加重要。

(3)過程是指資料探勘是乙個多步驟的、對大量資料進行分析處理的過程,包括資料的選擇、預處理、轉換、挖掘、結果的解釋和評價等,是乙個人機互動、螺旋上公升的過程,並且往往需要經過多次反覆調整,從而挖掘出質量更高、更有效的知識。

資料探勘是先有了資料才興起的行業,是人們長期對資料庫技術進行研究和開發的結果。

資料探勘使資料庫技術進入了乙個更高階的階段,它不僅能對過去的資料進行查詢和遍歷,並且能夠找出過去資料之間的潛在關係,對過去既有的資料集合進行統計分析,呈現出隱藏在資料背後的知識資訊。

二、資料探勘的特點

1)規模性;

要從資料中挖掘出規律,資料來源的規模必須是海量的。

2)快速性;

在市場和競爭環境瞬息萬變的今天,資料變化頻繁迅速,甚至有些資料很快過時。這要求資料探勘能夠動態處理資料,快速地做出反應,以提供用於決策的資訊和知識。

3)動態性;

資料探勘是根據歷史資料提取規則,發展潛在規則,管理和維護規則,用於指導現在的行為,並**未來。

4)互動性;

一般使用者由於檢索知識的侷限性,提出的即時隨機查詢往往不能形成精確的查詢要求,需要在查詢過程中依靠資料探勘技術進行實時互動,以便挖掘出更深入、更有價值的知識;

5)適用性;

資料探勘的目標在於發現知識,而不是要求發現放之四海而皆準的真理,也不是要求去發現新的自然科學定理和數學公式。

資料探勘發現的規則,是基於大樣本的統計規律,因此其知識都是相對的,又特定前提和約束條件的,面向特定領域的。

6)知識性;

資料庫僅僅是提供決策所需要的資料,而資料探勘提供決策所需要的深層次知識。

7)個性化;

資料探勘可以適應不同使用者的需求或不同應用,挖掘多種型別和不同粒度的模式,能提供個性化服務。

8)發掘性。

對於那些實際並沒有發生或者很少發生的行為,或者所隱藏的有用規則和規律,並沒有在資料庫中直接體現出來。資料探勘能夠發掘並提取這些有用規則和規律,並提出**。 

第 1 章 導論

作業系統 operating system 是管理計算機硬體的程式,為應用程式提供基礎,並且充當計算機使用者和硬體的中介。計算機系統可粗分為四個元件 硬體 作業系統 應用程式 使用者。作業系統是一直執行在計算機上的程式 通常稱為核心 除了核心外,還有系統程式 與系統的執行有關,但不是核心的一部分 和...

第一章 導論

c 是物件導向的高階語言,將客觀事物都看作物件,將同類物件進行抽象,形成類,類封裝起來只暴露介面,符合人類的思維方式。用源語言寫的,有待翻譯的程式 源程式通過翻譯程式加工以後生成的機器語言程式 連線目標程式以及庫中的某些檔案,生成乙個可執行檔案 加一位,0表示正,1表示負,符號絕對值表示的編碼,但是...

第一章 物件導論

所有程式語言都提供抽象機制。人們所能夠解決的問題的複雜性直接取決於抽象的型別和質量 物件導向程式設計允許根據問題來描述問題,而不是根據執行解決方案的計算機來描述問題。物件導向程式設計的五個基本特性,這些特性表現了一種純粹的物件導向程式設計方式 總結 這 一小節首先介紹了類的思想 物件導向程式設計語言...