推斷基本規則

2021-06-26 07:53:18 字數 2402 閱讀 3508

資料集

:只有乙個屬性承擔了所有工作,其它的都是無關或者冗餘的屬性。

它適應於類目屬性、預設值和數值屬性。

方法:1規則(1-rule,1r),是乙個能從例項集裡方便的找到非常簡單的分類規則方法。

特點:它產生一層的決策樹,用乙個規則集的形式表示,只在某個特定的屬性上進行測試。

想法:建立乙個只對單個屬性進行測試的規則,並應用於不同的分支,每個分支對應乙個不同的屬性值,分支的類就是訓練資料在這個分支上出現最多的類。

演算法實現(偽**)

1:對於每乙個屬性

2:       對於該屬性的每個屬性值,產生一條規則:

3:                計算每個類別出現的次數

4:                找出最頻繁的類別

5:                產生一條規則將該類別分配給該屬性值

6:        計算規則的誤差率

7: 選擇誤差最小的規則

演算法說明:每乙個屬性都會產生乙個不同的規則集,屬性值的數目對應規則集的數目,即規則集中的每條規則對應乙個屬性值。

預設值處理:把預設值作為另外乙個屬性值,例如,如果天氣資料在outlook屬性中存在預設值,資料集,那麼將對應4個規則。

數值屬性處理:下面介紹乙個簡單的資料離散化的方法,如下:

(1)將訓練樣本按照數值屬性的值進行排序,產生乙個類值序列。例如,天氣資料在溫度屬性值上的排序:

64

65

68

69

70

71

72

72

75

75

80

81

83

85

yes

no

yesyes

yes

nono

yes

yes

yes

no

yes

yes

no

(2) 在類值發生變化處放置斷點,產生8個區間:

yes | no | yes yes yes | no no | yes yes yes | no | yes yes | no

(3) 將斷點設定在兩遍樣本中間的位置,即64.5 , 66.5 , 70.5 , 72 , 77.5 , 80.5 , 84。

(4) 有些屬性值卻屬於兩個不同的類別,最簡單的辦法是將處於左右側的屬性值再向右移動乙個位置,從而產生乙個新的斷點,即

64.5 , 66.5 , 70.5 , 73.5 , 77.5 , 80.5 , 84。

(5) 1r演算法將傾向於被**成很多區間的屬性,例如標識碼屬性表示例項是唯一的,在訓練上的錯誤率為0,。高分支屬性在測試集上通常不能有很好的表現。

為了避免過度擬合的現象,需要制定一條規則,這條規則規定每個區間上多數類樣本必須達到最小值。本例設定最小的樣本數目為3,實踐中設定為6。新產生的分離結果如下:

yes no yes yes yes | no no  yes yes yes | no  yes yes  no

(6) 如果兩個相鄰的區間擁有相同的多數類時,將他們合併之後並不會影響規則集的意義,最終結果如下:

yes no yes yes yes  no no  yes yes yes | no  yes yes  no

(7) 產生的最後的規則如下:

溫度:<= 77.5  -> yes

>   77.5  -> no

預設值和數值屬性

如果乙個數值屬性存在預設值,為預設值簡歷乙個額外的區間,並且只離散化屬性值。

總結:儘管1r非常簡單,但是它的表現卻異常圖書,甚至可以和景點的機器學習演算法相媲美。在確定了效能基線的情況下,建議採用「簡單優先」的方法,首先採用簡答的、基本的技術,然後再將它發展成更加精細的方案。

XML基本規則

1.xml 文件必須包含在乙個單一元素中 2.xml 元素不能重疊,必須正確的巢狀 3.不能省去任何結束標記,或者說標記必須成對 4.xml 元素是區分大小寫的,也就是大小寫敏感 5.xml 文件中的屬性有兩個規則 屬性必須有值 那些值必須用引號括起,可以使用單引號,也可以使用雙引號,但要始終保持一...

GO基本規則

工作區是放置go原始碼檔案的目錄 一般情況下,go原始碼檔案都需要存放在工作區中,但對於命令原始碼檔案,這不是必須的 用於存放原始碼檔案 以 包為組織形式 用於存放歸檔檔案 名稱以.a為字尾的檔案 用於存放當前工作區中的go程式的可執行檔案 當環境變數gobin已有效設定時,該目錄會變的無意義 當g...

CI Repo XML基本規則

remote remote需要指定的是遠端的git庫的名稱,比如我們常用的其實都是origin,但是如果有多個git位址,就不能用origin,應該要有自己的名稱,這裡的名稱有點像是遠端倉庫的識別符號id。key有了,另外乙個就是value了,value就是遠端伺服器位址比如 default 預設的...