機器學習皮毛

2021-09-02 22:49:35 字數 2018 閱讀 6860

貝葉斯定理

p(spam)為先驗概率,p(spam|viagra)為在viagra單詞出現後的後驗概率。

設h是乙個一條資料,e是一種假設,這種假設的概率為:

p(h|e) = p(h) * p(e|h) / p(e)

拉普拉斯校準

而這個錯誤的造成是由於訓練量不足,會令分類器質量大大降低。為了解決這個問題,我們引入laplace校準(這就引出了我們的拉普拉斯平滑),它的思想非常簡單,就是對沒類別下所有劃分的計數加1,這樣如果訓練樣本集數量充分大時,並不會對結果產生影響,並且解決了上述頻率為0的尷尬局面。

k-近鄰演算法概述

決策樹(dt)

決策樹學習是一種逼近離散值目標函式的方法,在這種方法中學習到的函式被表示為一棵決策樹。在周志華老師的《機器學習》這本書中專門一章節對決策樹進行了講述。並對id3演算法後的改進演算法也做了相應的介紹。決策樹容易導致過擬合現象,介紹了預剪枝和後剪枝等相關的處理方法。決策樹依賴測試集,可以把測試集生成的樹結構序列化存到檔案中,下次使用可以很快進行載入。

決策樹的核心樹的**。到底該選擇什麼來決定樹的分叉是決策樹構建的基礎。最好的方法是利用資訊熵實現。資訊越多,熵越高。所以決策樹的核心是通過計算資訊熵劃分資料集。

流程收集資料:可以使用任何方法。

準備資料:距離計算所需要的數值,最好是結構化的資料格式。

分析資料:可以使用任何方法。

訓練演算法:此步驟不適用於k-近鄰演算法。

測試演算法:計算錯誤率。

使用演算法:首先需要輸入樣本資料和結構化的輸出結果,然後執行k-近鄰演算法判定輸

入資料分別屬於哪個分類,最後應用對計算出的分類執行後續的處理。

k-鄰近流程

計算已知類別資料集中的點與當前點之間的距離;

按照距離遞增次序排序;

選取與當前點距離最小的k個點;

確定前k個點所在類別的出現頻率;

返回前k個點出現頻率最高的類別作為當前點的**分類 降維

在一起影象識別過程也經常被採用的一種分類演算法,例如二維資料經過投影變為一維資料,從而更好的表徵資料的特徵,再進行識別。在前面章節中提到過lda(線性判別分析)也可以當做一種簡單降維處理。在周老師的這章中主要講述pca主成分分析演算法對高維資料進行降維。降維是一種解決維數災難的重要途徑。書中從如下幾節進行介紹:

1、k鄰近學習

kk近鄰學習是一種監督學習演算法,在給定的訓練樣本集中,基於某種距離度量,找出與訓練集最靠近的kk個訓練樣本,然後基於這kk個鄰居資訊來進行**。

投票法:通常在分類任務中使用,判別方法是選擇這kk個樣本中出現最多的雷冰標記作為**結果。

平均法:通常在回歸任務中使用,判別方法是將這kk個樣本的實值輸出標記的平均值最為**結果。

加權平均或加權投票:根據距離遠近來決定權重,距離越近,權重越大。

2、低維嵌入

維數災難:

緩解維數災難方法:降維(維數約簡),也就是通過某種數學變換將原始高維屬性空間轉變為乙個低維「子空間」,在這個子空間中樣本密度大幅提高,距離計算也變得更為容易。

在很多時候,人們觀測或收集到的資料樣本雖然是高維的,但與學習任務密切相關的也許僅是某個低維分布,即高維空間中的乙個低維嵌入。

線性降維方法:基於線性變換來進行降維的方法。

3、主成分分析(pca)

參閱:4、核化線性降維

在很多問題上,可能需要非線性對映才能找到恰當的低維嵌入。那麼非線性降維常用的一種方法,就是基於核技巧對線性降維方法進行「核化」。例如核主成分分析(kpca)

5、流形學習

流行學習是一類借鑑了拓撲流形概念的降維方法。常用的流行學習方法有等度量對映和區域性線性嵌入。

6、度量學習

在機器學習中,對高維資料進行降維的主要目的是希望找到乙個合適的低維空間,在此空間中進行學習能比原始空間效能更好。事實上,每個空間對應了在樣本屬性上定義的乙個距離度量,而尋找合適的空間,實質上就是在尋找乙個合適的距離度量。因此我們可以嘗試直接學習出乙個合適的距離度量。也就是度量學習。

馬氏距離:

tensorflow

tensorflow是google在2023年發布的乙個深度學習的框架

2020 04 21 皮毛,也許一點都不皮毛

08 00 學我,不能全像我。化我者生,破我者進,似我者死。吳昌碩 一天下來,勞累的原因不是因為我做了多大的一件事,而是有多少的小事同時壓在了自己的身上並導致一拖再拖。每一件皮毛小事都會產生點自我主觀意識來自我消耗,多件小事加起來的消耗並非只是簡單的線性消耗。在 人性的弱點 中也講到,乙個人的疲憊,...

新手學點PHP皮毛足以搞定wordpress

最近2013年8月2日在中國站長網chinaz的一篇標題為 並非php frameworks而是wordpress讓php更加流行!熟悉了php語法的好處 熟悉了php語法,會提高自身對wordpress的駕馭能力。節約 改版的費用和時間,一般部落格站點的改版優化,或者某些功能的實現。都需要用到ph...

機器學習 初識機器學習

1.什麼是機器學習?對於機器學習到現在都還沒有統一的定義,但是,通過乙個例子和較權威的定義來理解機器學習,最後附上我個人對機器學習的理解 2.監督學習 1 監督學習基本思想 我們資料集中的每個樣本都有相應的 正確答案 即每個樣本都是真實值,再根據這些樣本作出 舉乙個房價預售的例子來說明 eg 下面圖...