機器學習及其基礎概念簡介

2021-09-07 09:48:26 字數 3963 閱讀 9241

機器學習及其基礎概念簡介(2))

【machine learning】python開發工具:anaconda+sublime(1)

【machine learning】機器學習及其基礎概念簡介(2)

【machine learning】決策樹在商品購買力能力**案例中的演算法實現(3)

【machine learning】knn演算法虹膜識別實戰(4)

機器學習 (machine learning, ml) :

概念:多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。

學科定位:人工智慧(artificial intelligence, ai)的核心,是使計算機具有智慧型的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。

定義:**和開發一系列演算法來如何使計算機不需要通過外部明顯的指示,而可以自己通過資料來學習,建模,並且利用建好的模型和新的輸入來進行**的學科。

發展

arthur samuel (1959): 一門不需要通過外部程式指示而讓計算機有能力自我學習的學科

langley(1996) : 「機器學習是一門人工智慧的科學,該領域的主要研究物件是人工智慧,特別是如何在經驗學習中改善具體演算法的效能」 

tom michell (1997):  「機器學習是對能通過經驗自動改進的計算機演算法的研究」

學習:針對經驗e (experience) 和一系列的任務 t (tasks) 和一定表現的衡量 p,如果隨之經驗e的積累,針對定義好的任務t可以提高表現p,就說計算機具有學習能力

機器學習就業需求:linkedin所有職業技能需求量第一:機器學習,資料探勘和統計分析人才 

深度學習(deep learning):

深度學習是基於機器學習延伸出來的乙個新的領域,由以人大腦結構為啟發的神經網路演算法為起源加之模型結構深度的增加發展,並伴隨大資料和計算能力的提高而產生的一系列新的演算法。

深度學習發展

其概念由著名科學家geoffrey hinton等人在2023年和2023年在《sciences》等上發表的文章被提出和興起。

學習能用來幹什麼?為什麼近年來引起如此廣泛的關注?

深度學習,作為機器學習中延伸出來的乙個領域,被應用在影象處理與計算機視覺,自然語言處理以及語音識別等領域。自2023年至今,學術界和工業界合作在深度學習方面的研究與應用在以上領域取得了突破性的進展。以imagenet為資料庫的經典影象中的物體識別競賽為例,擊了所有傳統演算法,取得了前所未有的精確度。

深度學習目前有哪些代表性的學術機構和公司走在前沿?人才需要如何?

深度學習如今和未來將對我們生活造成怎樣的影響?

深度學習的應用展示:

基本概念:訓練集,測試集,特徵值,監督學習,非監督學習,半監督學習,分類,回歸

概念學習:人類學習概念:鳥,車,計算機

定義:概念學習是指從有關某個布林函式的輸入輸出訓練樣例中推斷出該布林函式

例子:學習 「享受運動" 這一概念:

小明進行水上運動,是否享受運動取決於很多因素

樣例天氣溫度

濕度風力

水溫預報

享受運動1晴

暖普通強暖

一樣是2晴

暖大強暖

一樣是3雨

冷大強暖

變化否4晴

暖大強冷

變化是天氣:晴,陰,雨

溫度:暖,冷

濕度:普通,大

風力:強,弱

水溫:暖,冷

預報:一樣,變化

享受運動:是,否

概念定義在例項(instance)集合之上,這個集合表示為x。(x:所有可能的日子,每個日子的值由 天氣,溫度,濕度,風力,水溫,預 報6個屬性表示。待學習的概念或目標函式成為目標概念(target concept), 記做c。c(x) = 1, 當享受運動時, c(x) = 0 當不享受運動時,c(x)也可叫做y

x: 每乙個例項

x: 樣例, 所有例項的集合

學習目標:f: x -> y

訓練集(training set/data)/訓練樣例(training examples): 用來進行訓練,也就是產生模型或者演算法的資料集

測試集(testing set/data)/測試樣例 (testing examples):用來專門進行測試已經學習好的模型或者演算法的資料集

特徵向量(features/feature vector):屬性的集合,通常用乙個向量來表示,附屬於乙個例項

標記(label): c(x), 例項類別的標記

正例(positive example)

反例(negative example)

例子:研究美國矽谷房價

影響房價的兩個重要因素:面積(平方公尺),學區(評分1-10)

樣例面積(平方公尺)

學區 (11.2 深度學習(deep learning)介紹-10)

房價 (1000$)

1100

81000

2120

91300360

6800480

91100595

5850

分類 (classification): 目標標記為類別型資料(category)

回歸(regression): 目標標記為連續性數值 (continuous numeric value)

例子:研究腫瘤良性,惡性於尺寸,顏色的關係

特徵值:腫瘤尺寸,顏色

標記:良性/惡性

有監督學習(supervised learning): 訓練集有類別標記(class label)

無監督學習(unsupervised learning): 無類別標記(class label)

半監督學習(semi-supervised learning):有類別標記的訓練集 + 無標記的訓練集

把資料拆分為訓練集和測試集

用訓練集和訓練集的特徵向量來訓練演算法

用學習來的演算法運用在測試集上來評估演算法 (可能要設計到調整引數(parameter tuning), 用驗證集(validation set)

例如:

100 天: 訓練集

10天:測試集 (不知道是否 」 享受運動「, 知道6個屬性,來**每一天是否享受運動)

機器學習基礎簡介

機器學習 machine learning,ml 主要研究計算機系統對於特定任務的效能,逐步進行改善的演算法和統計模型。通過輸入海量訓練資料對模型進行訓練,使模型掌握資料所蘊含的qian潛在規律,進而對新輸入的資料進行準確的分類或 簡單地來說就是通過海量資料訓練模型,提煉規律,進行新資料的 無監督學...

機器學習基礎概念

聚類 將本身沒有類別的樣本聚集成不同的組,這樣的一組資料物件的集合叫做簇,並且對每乙個這樣的簇進行描述的過程,他的目的是使得屬於同乙個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。資料預處理 在資料探勘之前使用,大大提高了資料探勘的質量 處理缺失值 將含有缺失值的記錄刪除 根據變數之間的相...

機器學習基礎概念

資料量大 tb pb eb zb yb hdfs 速度快 資料增長速度快 資料處理速度快 價值密度低 密度 有價值資料 all 機器學習演算法解決 人工智慧 機器學習 深度學習的關係 資料 資料分析 資料探勘 機器學習 致力於研究如何通過cpu和gpu 圖形處理器 的計算,利用經驗 資料來改善 計算...