分本挖掘之基本概念

2021-07-27 04:58:28 字數 1017 閱讀 8062

1、監督學習:學習過程中使用的樣例是由輸入/輸出對給出時,稱為監督學習。最典型的監督學習例子就是文字分類問題,訓練集是一些已經明確分好了類別文件組成,文件就是輸入,對應的類別就是輸出。

2、非監督學習:學習過程中使用的樣例不包含輸入/輸出對,學習的任務是理解資料產生的過程。典型的非監督學習例子是聚類,類別的數量,名稱,事先全都沒有確定,由計算機自己觀察樣例來總結得出。

3、tsr:特徵空間的壓縮,即降維,也可以叫做特徵提取。包括特徵選擇和特徵抽取兩大類方法。

4、分類狀態得分(csv):用於描述將文件歸於某個類別下有多大的可信度。

5、準確率(precision):在所有被判斷為正確的文件中,有多大比例是確實正確的。

6、召回率(recall):在所有確實正確的文件中,有多大比例被我們判為正確。

7、假設:計算機對訓練集背後的真實模型(真實的分類規則)的猜測稱為假設。可以把真實的分類規則想像為乙個目標函式,我們的假設則是另乙個函式,假設函式在所有的訓練資料上都得出與真實函式相同(或足夠接近)的結果。

8、泛化性:乙個假設能夠正確分類訓練集之外資料(即新的,未知的資料)的能力稱為該假設的泛化性。

9、一致假設:乙個假設能夠對所有訓練資料正確分類,則稱這個假設是一致的。

10、過擬合:為了得到一致假設而使假設變得過度複雜稱為過擬合。想像某種學習演算法產生了乙個過擬合的分類器,這個分類器能夠百分之百的正確分類樣本資料(即再拿樣本中的文件來給它,它絕對不會分錯),但也就為了能夠對樣本完全正確的分類,使得它的構造如此精細複雜,規則如此嚴格,以至於任何與樣本資料稍有不同的文件它全都認為不屬於這個類別!

11、超平面(hyper plane):n維空間中的線性函式唯一確定了乙個超平面。一些較直觀的例子,在二維空間中,一條直線就是乙個超平面;在三維空間中,乙個平面就是乙個超平面。

12、線性可分和不可分:如果存在乙個超平面能夠正確分類訓練資料,並且這個程式保證收斂,這種情況稱為線形可分。如果這樣的超平面不存在,則稱資料是線性不可分的。

13、正樣本和負樣本:對某個類別來說,屬於這個類別的樣本文件稱為正樣本;不屬於這個類別的文件稱為負樣本。

資料探勘基本概念

1 過擬合 overfitting 顧名思義,某種演算法產生的分類器能夠百分百正確分類訓練樣本,而對於新出現的樣本,它都認為不屬於這個類別,實際資料不完全是訓練樣本能夠覆蓋的,訓練樣本只是其中一小部分,這導致其在新樣本的分類上準確率較低。如圖,可以看出在a中雖然完全的擬合了樣本資料,但對於b中的測試...

關聯規則挖掘 基本概念

本文主要來自 資料倉儲和資料探勘 一書,這本書講的和維基百科裡的非常相似,懷疑是從某本外文書籍裡翻譯過來的。關聯規則挖掘 association rule mining 是資料探勘中最活躍的研究方法之一,可以用來發現事情之間的聯絡,最早是為了發現超市交易資料庫中不同的商品之間的關係。這裡有一則沃爾瑪...

資料探勘 DM 基本概念

問題 資料總量 式增加,如何從中提取真正有價值的資訊,產生了新的領域 dm 幾個名詞 1 data mining 資料探勘 2 knowledge discovery 知識發現 3 machine learning 機器學習 機器學習是資料探勘的乙個重要工具 4 knowledge discover...