持續定義 SaaS 模式雲資料倉儲 AI

（一）人工智慧的發展歷史

人工智慧是很早就出現的乙個概念，起源於上個世紀50年代，之後由於種種原因人工智慧經歷了幾十年的漫長的消沉的過程，直到最近幾年人工智慧才火熱起來。人工智慧的發展其實有三次**時期：第一次是人工智慧概念提出的時候，學者們以為ai技術能改變世界，但是實際上並沒有；第二次是上個世紀80年代左右，此時已經提出了神經網路等模擬人腦思考的演算法，但是也並沒有得到很快的發展；第三次可以認為是從2023年左右開始的，與前兩次不一樣的是這次我們有大資料為生產資料，以強大的算力、雲計算為基礎設施，包括iot和5g技術的發展，有應用場景驅動，比如說搜尋就是乙個應用人工智慧演算法的眾多場景之一，所以這次是人工智慧發展真正的**時期。

（二）為什麼需要maxcompute+ai

garter在資料分析領域的是大趨勢**如下：

從中可以看出，garter認為在未來資料與分析的邊界逐漸模糊，並且**在2023年，40%的機器學習工作將在非以機器學習為主要目的的平台上（如資料倉儲）完成。因此，可以說maxcompute+ai是大勢所趨。

因為資料倉儲承載的是整個企業的資料資產，尤其是maxcompute，它是乙個從tb到eb級，能夠彈性擴充套件大量儲存能力的資料平台，所以資料倉儲內建機器學習的優勢非常明顯：

1.無需移動資料（資料量大），降低基礎設施成本、人工成本、減少資料安全風險； 2.資料訪問速度快（讓演算法找資料）； 3.可擴充套件性強； 4.純 sql ml / python 更易用。

而且資料倉儲內建機器學習是各角色均收益的一種整合：對於商務人士來說，新想法可以快速得到快速試驗，roi得到提公升；對於資料科學家和資料分析師來說，大部分工作通過sql/python實現，易用高效，且模型開發和生產環境可以無縫對接；對於資料庫管理員（dba）來說，資料管理更加簡單，安全性更高。

（三）maxcompute現有的ai能力

maxcompute的產品特性在之前的講座中已經具體講過了，這裡不再贅述，其中maxcompute整合ai的能力主要有：

上述的整合ai能力中，sqlml和mars是maxcompute的兩個原生ai擴充套件能力，本文我們重點介紹這兩個能力。

為什麼選擇sql和python這兩種語言呢？主要是因為sql和python是當前資料處理和機器學習領域中最火的兩種語言。下面兩張圖是sql查詢語言的發展及現狀以及python的發展。

對於資料處理語言來講，關係型資料庫，也就是以sql為基礎的關係型資料庫，包括類似的資料庫目前仍然佔據了資料處理引擎的前幾名，有著穩健的生態；而python已經逐漸成為資料分析領域和資料科學領域的主流語言，其有著強大的機器學習生態。因此選擇這兩種語言作為maxcompute的ai整合，既是大勢所趨，又能減輕使用者的學習成本和遷移成本。

我們將該項目的名字叫mars，其最早是意味著matrix和array，當然現在已經不再侷限於這兩者，資料維度可以達到非常高的程度；第二是意味著我們向著比登月更高的目標出發，不斷的挑戰自己。

那麼我們為什麼要做mars呢？其主要原因有：

目前，mars是唯一的商業化的大規模科學計算引擎，關於mars的更多資訊大家可以到阿里雲官網查詢。mars的基本思路如下圖所示，主要是將python中的主流科學計算和機器學習的庫做相應的分布式化處理。

下面是乙個簡單的sqlml的demo介紹。

首先，我們在dataworks中新建乙個工作流，會發現工作流中有很多元件，我們先建乙個臨時查詢，如下圖所示：

然後新建一張表，其中儲存的是關於蘑菇的一些屬性，根據這些屬性資料，我們可以對其進行分類。

表建立好之後，我們可以將資料匯入，因為該資料集比較小，所以我們從本地上傳csv檔案，將列與表中的字段對應即可：

之後，我們需要對特徵進行onehot編碼，其結果如下圖所示：

然後，我們將資料分成訓練集和測試集，並且分別將訓練集和測試集匯入一張單獨的表中，之後就可以建立模型了，這裡我們用的是邏輯回歸，乙個常用的二分類演算法：

執行模型，很便捷地就可以得到訓練結果：

通過上面的demo，我們很容易的就完成了一次機器學習的訓練過程，其過程類似與使用sql中的udf，簡便、高效。上面demo介紹的是sqlml，如果想使用mars也非常簡單，我們只需要拖拽pyodps3元件即可，如下圖所示。

持續定義 SaaS 模式雲資料倉儲 AI

持續定義 Saas 模式雲資料倉儲 BI

資料倉儲大資料定義

資料倉儲建設持續改進資料質量

持續定義 SaaS 模式雲資料倉儲 AI

持續定義 Saas 模式雲資料倉儲 BI

資料倉儲 大資料定義

資料倉儲建設持續改進資料質量

相關推薦

資料倉儲大資料定義