機器學習 1 2

2022-08-05 17:27:17 字數 3135 閱讀 9181

什麼機器學習?第一個機器學習的定義來自於 arthur samuel。他定義機器學習為,在進行特定程式設計的情況下,給予計算機學習能力的領域。samuel 的定義可以回溯到 50 年代,他編寫了一個西洋棋程式。這程式神奇之處在於,程式設計者自己並不是個下棋高手。但因為他太菜了,於是就通過程式設計,讓西洋棋程式自己跟自己下了上萬盤棋。通過觀察哪種佈局(棋盤位置)會贏,哪種佈局會輸,久而久之,這西洋棋程式明白了什麼是好的佈局,什麼樣是壞的佈局。儘管編寫者自己是個菜鳥,但因為計算機有著足夠的耐心,去下上萬盤的棋,沒有人有這耐心去下這麼多盤棋。通過這些練習,計算機獲得無比豐富的經驗,於是漸漸成為了比samuel 更厲害的西洋棋手。上述是個有點不正式的定義,也比較古老。另一個年代近一點的定義,由 tom mitchell 提出,來自卡內基梅隆大學,tom 定義的機器學習是,一個好的學習問題定義如下,他說,一個程式被認為能從經驗 e 中學習,解決任務 t,達到效能度量值p,當且僅當,有了經驗 e 後,經過 p 評判,程式在處理 t 時的效能有所提升。我認為經驗e 就是程式上萬次的自我練習的經驗而任務 t 就是下棋。效能度量值 p 呢,就是它在與一些新的對手比賽時,贏得比賽的概率。

監督學習指的就是我們給學習演算法一個資料集,這個資料集由“正確答案”組成。在房價的例子中,我們給了一系列房子的資料,我們給定資料集中每個樣本的正確**,即它們實際的售價然後運用學習演算法,算出更多的正確答案。比如你朋友那個新房子的**。用術語來講,這叫做迴歸問題。我們試著推測出一個連續值的結果,即房子的**。而在腫瘤的問題中,我們的目的是估算出腫瘤是惡性還是良心的概率,畢竟沒人會擔心良心腫瘤,這和房價問題不同因為我們將腫瘤分為了良性和惡性,所以這是個分類問題

監督學習的基本思想是,我們資料集中的每個樣本都有相應的“正確答案”。再根據這些樣本作出**,就像房子和腫瘤的例子中做的那樣。

迴歸問題,即通過迴歸來推出一個連續的輸出。

分類問題,其目標是推出一組離散的結果。

和監督學習不同,無監督學習中沒有任何的標籤或者是有相同的標籤或者就是沒標籤。我們只有一個資料集,其他什麼也不知道,而我們要做的就是從這些資料中找到某種結構,將他們分為不同的聚集簇。無監督學習演算法可能會把這些資料分成兩個或多個不同的簇。所以叫做聚類演算法。一個例子就是谷歌新聞,谷歌新聞每天都在收集各種新聞,它再將這些新聞分組,組成有關聯的新聞。所以谷歌新聞做的就是搜尋非常多的新聞事件,自動地把它們聚類到一起。所以,這些新聞事件全是同一主題的,所以顯示到一起。

\(m\) 代表訓練集(即監督學習中的資料集)中例項的數量

\(x\) 代表特徵/輸入變數

\(y\) 代表目標變數/輸出變數

\(\left( x,y \right)\) 代表訓練集中的例項

\((^},^})\) 代表第\(i\) 個觀察例項

\(h\) 代表學習演算法的解決方案或函式也稱為假設(hypothesis

我們把訓練集裡房屋**餵給我們的學習演算法,學習演算法的工作了,然後輸出一個函式,通常表示為小寫 ℎ表示。ℎ 代表 hypothesis(假設),ℎ表示一個函式,輸入是房屋尺寸大小,就像你朋友想**的房屋,因此 ℎ 根據輸入的

2 1 1 Hive 概述

一 hive產生背景 直接使用mapreduce處理大資料,將面臨以下問題 hive是基於hadoop的一個資料倉儲工具,可以將 結構化的資料檔案 對映為一張表 類似於rdbms中的表 ,並提供類sql查詢功能 hive是由facebook開源,用於解決海量結構化日誌的資料統計。 資料倉儲 data...

1 2 2009

2009 已經過去了一半,我沒有追求,沒有理想的當著我的行屍走肉,每天的一小時計劃沒有實現,沒有理想也是要行動起來的!精神生活是什麼?看看電...

BCZM 2 1

1 問題描述 實現一個函式,輸入一個無符號整數,輸出該數二進位制中的1的個數。例如把9表示成二進位制是1001,有2位是1,因此如果輸入9,該函式輸出2 2 分析與解法 解法1 利用十進位制和二進位制相互轉化的規則,依次除餘操作的結果是否為1 如下 int count1 unsigned int v v v...