分本挖掘之基本概念

1、監督學習：學習過程中使用的樣例是由輸入/輸出對給出時，稱為監督學習。最典型的監督學習例子就是文字分類問題，訓練集是一些已經明確分好了類別文件組成，文件就是輸入，對應的類別就是輸出。

2、非監督學習：學習過程中使用的樣例不包含輸入/輸出對，學習的任務是理解資料產生的過程。典型的非監督學習例子是聚類，類別的數量，名稱，事先全都沒有確定，由計算機自己觀察樣例來總結得出。

3、tsr：特徵空間的壓縮，即降維，也可以叫做特徵提取。包括特徵選擇和特徵抽取兩大類方法。

4、分類狀態得分（csv)：用於描述將文件歸於某個類別下有多大的可信度。

5、準確率（precision）：在所有被判斷為正確的文件中，有多大比例是確實正確的。

6、召回率（recall）：在所有確實正確的文件中，有多大比例被我們判為正確。

7、假設：計算機對訓練集背後的真實模型（真實的分類規則）的猜測稱為假設。可以把真實的分類規則想像為乙個目標函式，我們的假設則是另乙個函式，假設函式在所有的訓練資料上都得出與真實函式相同（或足夠接近）的結果。

8、泛化性：乙個假設能夠正確分類訓練集之外資料（即新的，未知的資料）的能力稱為該假設的泛化性。

9、一致假設：乙個假設能夠對所有訓練資料正確分類，則稱這個假設是一致的。

10、過擬合：為了得到一致假設而使假設變得過度複雜稱為過擬合。想像某種學習演算法產生了乙個過擬合的分類器，這個分類器能夠百分之百的正確分類樣本資料（即再拿樣本中的文件來給它，它絕對不會分錯），但也就為了能夠對樣本完全正確的分類，使得它的構造如此精細複雜，規則如此嚴格，以至於任何與樣本資料稍有不同的文件它全都認為不屬於這個類別！

11、超平面（hyper plane）：n維空間中的線性函式唯一確定了乙個超平面。一些較直觀的例子，在二維空間中，一條直線就是乙個超平面；在三維空間中，乙個平面就是乙個超平面。

12、線性可分和不可分：如果存在乙個超平面能夠正確分類訓練資料，並且這個程式保證收斂，這種情況稱為線形可分。如果這樣的超平面不存在，則稱資料是線性不可分的。

13、正樣本和負樣本：對某個類別來說，屬於這個類別的樣本文件稱為正樣本；不屬於這個類別的文件稱為負樣本。

分本挖掘之基本概念

資料探勘基本概念

關聯規則挖掘基本概念

資料探勘 DM 基本概念

分本挖掘之基本概念

資料探勘基本概念

關聯規則挖掘 基本概念

資料探勘 DM 基本概念

相關推薦

關聯規則挖掘基本概念