1 人工智慧（AI）概述

學習筆記。楊正洪;郭良越;劉瑋. 人工智慧與大資料技術導論清華大學出版社.kindle版本.

人工智慧是一門利用計算機模擬人類智慧型行為科學的統稱，它涵蓋了訓練計算機使其能夠完成自主學習、判斷、決策等人類行為的範疇。ai是人工智慧的英文artificialintelligence的首字母的組合，它是當前人類所面對的最為重要的技術變革。

人工智慧、機器學習、深度學習是我們經常聽到的三個熱詞。關於三者的關係，簡單來說，機器學習是實現人工智慧的一種方法，深度學習是實現機器學習的一種技術（見下圖）機器學習使計算機能夠自動解析資料、從中學習，然後對真實世界中的事件做出決策和**；深度學習是利用一系列「深層次」的神經網路模型來解決更複雜問題的技術!

深度學習是機器學習的重要分支，作為新一代的計算模式，深度學習力圖通過分層組合多個非線性函式來模擬人類神經系統的工作過程，其技術的突破掀起了人工智慧的新一輪發展浪潮。深度學習的人工神經網路演算法與傳統計算模式不同，本質上是多層次的人工神經網路演算法，即模仿人腦的神經網路，從最基本的單元上模擬了人類大腦的執行機制，它能夠從輸入的大量資料中自發地總結出規律，再舉一反三，應用到其他的場景中。因此，它不需要人為地提取所需解決問題的特徵或者總結規律來進行程式設計。

深度學習和機器學習是包含關係，深度學習是機器學習的乙個子類。在傳統的介紹機器學習演算法的課程中，絕大多數會提到神經網路這個模型，而深度學習其實就是有多個隱藏層的神經網路。對於初學者來說，可以將深度學習理解為「多層神經網路」。嚴格來說，深度學習是一種學習的模式，是指採用具有「深度」的模型進行學習，其本身並不是乙個模型。多層神經網路是具有「深度」特點的乙個學習模型，它實際上是深度學習的一種形式。

我們通常把錶 4- 2這樣的樣本資料叫作資料集 (dataset），該資料集以結構化的列表形式呈現。資料集由若干樣本（ instances 或 examples）組成，每乙個樣本是乙個觀測資料的記錄（ records），或者叫觀測值（ observances），在**中以行（row）的形式體現。在機器學習中，一行、一條記錄和乙個樣本的概念可以視為是等價的。在這個情景中，我們關注的是顧客給予小費的情況，小費這一列是我們關注的結果（ outcome），我們可以把這個變數稱為因變數（dependent variable，也叫函式值），在機器學習領域中通常叫作目標（target）或標籤（label），也有人把它稱為響應值（ response）。以上幾個概念可以視為乙個意思，在本書中一般用目標來指代這個變數，對應的資料稱為標籤資料。不同於「小費」，表中其他列表示的變數在這個問題中是用來解釋和**「小費」的，我們把這些變數叫作自變數（ independent variables），在機器學習領域通常用特徵（ features）這個術語來表示。特徵和目標在表中通常以列（column）的形式呈現。整個關係如 4- 7所示：

並不是所有機器學習任務的資料集都帶有標籤資料，我們把具有標籤資料的學習任務叫作監督式學習（supervised learning）。當目標變數是連續型（比如溫度、**）的時候，我們把這類問題叫作回歸任務（ regression task）；當目標變數是離散型（例如某種植物是否具有毒性、貸款人是否會違約、員工所屬部門類別）的時候，我們遇到的問題則是分類任務（ classification task）。回歸問題和分類問題是監督式學習的兩大型別。

有時我們遇到的樣本資料並沒有標籤資料，我們把這個問題叫作非監督式學習（unsupervised learning）。非監督式學習雖然沒有標籤資料，但我們仍然可以挖掘特徵資料的資訊進行分析，聚類（ clustering）就是其中最常見的一種，它根據樣本資料分布的特點將資料分成幾個類。我們可以把機器學習任務按圖 4- 8進行分類：

強化學習是基於「行為-反饋」的自我學習機制。所謂反饋，是一種基於行動對學習機的獎勵。學習機以最大化獎勵為目標，不斷改進「行動」，從而適應環境。強化學習與監督式學習的主要區別是，前者是完全靠自己的經歷去學習，沒有人告知學習機正確的答案，「強化」的訊號是對學習機行動的反饋；而後者則是有人在監督學習機。

遷移學習指的是將已經訓練好的引數提供給新的模型用作訓練。現實中很多機器學習問題是存在相關性的。比如在影象識別中，識別狗和識別哈士奇，雖然具體任務不同，但它們具有相似性，用於識別狗的模型學習到的引數可以分享給識別哈士奇的任務，使得後者可以「從半路開始」，而不是從零開始學習引數，大大減少了學習時間。

在機器學習任務中，我們通常將資料集分成三部分：訓練集（trainingset）、驗證集（validationset）和測試集（testset）。下面介紹這三個概念。

訓練集和測試集的概念相對好理解。訓練集顧名思義是用來訓練的，機器使用訓練集來學習樣本。而測試集用來檢驗模型的效果。就像我們在學校學習功課，訓練集如同教科書中的題庫，測試集相當於考試試卷。我們通過「刷題庫」獲得知識，從而在考試中取得優異的成績。為什麼要建立測試集呢？不直接用訓練集進行測試的原因是，模型是用訓練集進行學習的，傾向於盡可能擬合訓練集資料的特性，因此在訓練集上的測試效果通常會很好，但在沒有見過的資料集上表現效果可能會明顯下降，這個現象叫作過擬合（overfitting）。

驗證集是用來調參的，可以先將調參理解為調整模型。驗證集的作用是比較我們所嘗試的多個模型，從中選擇表現最好的乙個。這個任務僅通過測試集其實也能實現，很多人會直接把測試集當作驗證集來選擇和優化模型，從而將測試集和驗證集的概念混為一談。但嚴格來說，驗證集的單獨存在是必要的。測試集用來衡量乙個完整建好的模型，意味著這個模型在之前就被認定為已經調整到最優，而這個優化的過程就是通過驗證集實現的。如果我們延續上文中對訓練集和測試集的比喻，驗證集就相當於考前的模擬測試。

乙個完整的任務流程大致可分為如圖4-9所示的6個步驟。注意這個流程只是一般的思路，具體問題會有各自的差異和側重。

1 人工智慧（AI）概述

AI 人工智慧概述

AI筆記（一）人工智慧概論

2023年人工智慧創意「AI鑫投」

1 人工智慧（AI）概述

AI 人工智慧概述

AI筆記（一） 人工智慧概論

2023年人工智慧創意「AI鑫投」

相關推薦

AI筆記（一）人工智慧概論