阿里巴巴大資料產品最新特性介紹 機器學習PAI

2021-09-27 06:06:06 字數 1374 閱讀 4633

本次分享主要圍繞以下五個方面:

pai產品簡介

自定義演算法上傳

數加智慧型生態市場

automl2.0自動調參

autolearning自動學習

一、pai產品簡介與功能發展

pai-studio

在pai的架構圖中,最下層的是pai的計算框架和資料資源。pai可支援maxcompute、oss、hdfs和nas等多種資料資源。在資料資源和多種計算框架基礎之上,誕生出了pai的最早形態:pai-studio——視覺化建模實驗平台,studio中包括了兩百多種演算法,覆蓋了資料預處理,特徵工程,模型訓練,評估**等全鏈路的實驗流程操作。使用者可在pai-studio中以拖拽的方式構建實驗,而無需複雜的操作。此外,pai內建了鯤鵬計算框架,可支援百億特徵,百億樣本的超大規模矩陣訓練。在最初建立過程中,pai-studio的定位目標為中級的演算法工程師,即乙個不需要很高的技術門檻就可以上手使用的演算法平台。有了視覺化建模studio,pai就可以擁有為使用者提供業務支援,如構建推薦系統、金融風控、疾病**或新聞分類等的能力。

pai-dsw

在pai之後的發展過程中,出現了新的需求,即有的工程師希望在整個實驗構建過程中有更大的自主發揮空間。為此,pai推出了pai-dsw版塊,其特點是使用notebook進行建模,pai-dsw內建了jupyter的開發環境,繼承了深度優化的tensorflow,並且可以視覺化編輯神經網路。由需求的初衷不難發現,pai-studio和pai-dsw最大不同點就在於它為擁有更多演算法背景技術的工程師提供更大的發揮空間,因此適合於高階的演算法工程師。

pai-autolearning

在解決了高階、中級演算法工程師的需求之後, pai又進一步推出了專門為初級演算法工程師量身設計的全新pai-autolearning功能(詳細功能特性會在下文介紹)。繼而,擁有不同的演算法能力的工程師都可以通過pai找到適合自己使用的產品類別。

智慧型生態市場

通過以上pai的功能版塊,使用者可以根據自身特點迅速找到適合自己的板塊,並快速部署服務到業務中去,但這些都是需要使用者自身來開發完成。隨著ai行業應用的不斷發展,如何讓借助他方的能力、智慧型,來快速解決自己的業務需求,又成為了乙個新的問題解決思路。為此,pai推出了——智慧型生態市場功能版塊。使用者可以在智慧型生態市場中尋找自己業務問題的解決方案(如模型、演算法或者應用等),快速獲取能力,避免了不必要的開發人力資源的耗費。反之,擁有對應技術的開發人員或公司,又可以在智慧型生態市場中一展才能,售賣發布商品,並獲取相應回報及品牌。

二、自定義演算法上傳

自定義演算法上傳是pai-studio內的乙個功能。機器學習在實際的應用過程當中,有千萬種與行業結合的可能性和應用場景,使用者會有一些個性化的需求。儘管pai-studio為使用者提供了兩百多種演算法元件,但依然不能滿足每乙個使用者的每乙個需求。通過自定義演算法上傳功能,使用者可以開發自己的演算法元件,方便後續使用。

阿里巴巴大資料之路

資料治理 對這些資料進行有序 有結構地分類組織和儲存,目前企業資料現狀 集團資料儲存達到eb 1eb 1024pb 2 60位元組 級別,部分單張表每天的資料記錄數高達幾千億條 資料工程師工作 資料工程師每天要面對百萬級規模的離線資料處理工作。資料模型 資料研發 資料質量和運維保障工作。大資料系統體...

《大資料之路 阿里巴巴大資料實踐》筆記

阿里巴巴大資料系統體系主要分為,資料採集 資料計算 資料服務和資料應用四大層次。瀏覽器的頁面日誌採集 h5裝置標識 日誌傳輸資料同步基礎 不過濾刪除流水,下游邏輯刪除 過濾最後一條刪除流水,比如存在手工批量刪除或者備份刪除,則資料還是有效的不應當置為無效 過濾刪除流水和之前的流水 阿里資料倉儲的同步...

阿里巴巴資料庫

開源資料庫 alisql alisql 是基於 mysql 官方版本的乙個分支,由阿里雲資料庫團隊維護,目前也應用於阿里巴巴集團業務以及阿里雲資料庫服務。該版本在社群版的基礎上做了大量的效能與功能的優化改進。尤其適合電商 雲計算以及金融等行業環境。分布式資料庫 oceanbase oceanbase...