《R語言資料探勘》 1 9 機器學習

2021-09-23 16:06:44 字數 1292 閱讀 2788

1.9 機器學習

應用於機器學習演算法的資料集稱為訓練集,它由一組成對的資料(x, y)構成,稱為訓練樣本。成對的資料解釋如下:

x:這是乙個值向量,通常稱為特徵向量。每個值或者特徵,要麼是分類變數(這些值來自一組離散值,比如),要麼是數值型。

y:這是乙個標籤,表示x的分類或者回歸值。

機器學習過程的目的就是發現乙個函式y=f(x),它能最好地**與每乙個x值相關聯的y值。原則上y的型別是任意的,但有一些常見的和重要的型別:

y:這是乙個實數,機器學習問題稱為回歸。

y:這是乙個布林值,真或者假,通常分別寫為+1和-1。在這種情況下,機器學習問題稱為二元分類。

y:這是某些有限集合的成員。這個集合的成員可以認為是類,並且每個成員代表一類。此機器學習問題稱為多級分類。

y:這是某些潛在無限集合的成員,例如,x的乙個解析樹,它被解析為乙個句子。

到現在為止,在我們可以更直接地描述挖掘目標的情況下,還沒有證明機器學習是成功的。機器學習和資料探勘是兩個不同的主題,儘管它們共享一些演算法——特別是目標為提取資訊時。在某些情況下,機器學習是有意義的,乙個典型的情形就是當我們試圖從資料集中尋找某些資訊。

1.9.1 機器學習方法

演算法的主要型別均列於下方,每個演算法由函式f區分。

決策樹(decision tree):這種形式的f呈樹形,樹的每個節點都有乙個關於x的函式,用來確定必須搜尋哪個子節點或者哪些子節點。

感知器(perceptron):這些是應用於向量x=的分量的閾值函式。對每個i=1, 2, …, n,權重wi與第i個分量相關聯,且有乙個閾值wixi≥θ。如果閾值滿足條件,輸出為+1,否則為-1。

神經網路(neural net):這些是有感知器的非迴圈網路,某些感知器的輸出用作其他感知器的輸入。

基於例項的學習(instance-based learning):此方法使用整個訓練集來表

示函式f。

支援向量機(support-vector machine):該類的結果是乙個分類器,它對未知資料更準確。分類的目標是尋找最優超平面,通過最大化兩個類的最近點之間的間隔將它們分隔。

1.9.2 機器學習架構

這裡,機器學習的資料方面指的是處理資料的方式以及使用資料構建模型的方式。

訓練和測試(training and testing):假定所有資料都適用於訓練,分離出一小部分可用的資料作為測試集,使用餘下的資料建立乙個合適的模型或者分類器。

特徵選擇(feature selection):這有助於找出那些用作學習演算法輸入的特徵。

建立訓練集(creating a training set):通過手動建立標籤資訊,從而把資料變為訓練集。

R語言資料探勘資料

包含理論知識與rpart包例項。包含演算法的自行實現,以及rweka包的c4.5演算法 tree包的cart演算法。離散選擇模型大師kenneth train的個人主頁,提供了matlab r和gauss的源 個人推薦r 中的rsghb包,採用的估計方法是hierarchical bayes演算法,...

《R語言資料探勘》 1 3 資料探勘

1.3 資料探勘 資料探勘就是在資料中發現乙個模型,它也稱為探索性資料分析,即從資料中發現有用的 有效的 意想不到的且可以理解的知識。有些目標與其他科學,如統計學 人工智慧 機器學習和模式識別是相同的。在大多數情況下,資料探勘通常被視為乙個演算法問題。聚類 分類 關聯規則學習 異常檢測 回歸和總結都...

R語言資料探勘值關聯規則挖掘

關聯規則挖掘步驟及 如下 設定工作目錄 setwd e project rexample enterpresponser apriori 載入兩個包 library matrix library arules 讀取資料 幫助文件 tr read.transactions my transaction...