使用Azure進行自動化機器學習

2022-04-30 20:36:10 字數 3905 閱讀 2076

自動化的機器學習,也稱為 automl,讓資料科研人員、 分析人員和開發人員,同時維護模型質量構建具有高縮放性、 效率和工作效率的機器學習模型。

自動化機器學習生成的機器學習模型自動、 智慧型地選擇用於訓練的模型的集合,並推薦最適合您。 傳統的機器學習模型開發是資源密集型需要大量域知識和時間來生成和比較數十個模型。 與自動化機器學習將加快所需獲取生產的 ml 模型很好的輕鬆和高效的時間。

在幕後,將訓練資料是採用乙個定義的目標的功能,並以智慧型方式在迴圈的機器學習演算法和功能選擇的組合。 然後,根據訓練的分數,最擬合的模型是標識並向你推薦。

您仍然可以控制您的實驗和的透明度了解發生了什麼情況。 您可以定義約束和試驗根據時間、 準確性或迭代次數,例如目標。 在實驗中,每次迭代的訓練流和由給定模型的影響最大功能,可以看到每個生成的模型。

使用azure 機器學習服務,可以設計和使用這些步驟執行自動化的機器學習訓練實驗:

確定機器學習問題待解決: 分類,**或回歸

指定的源和標記的訓練資料的格式:numpy 陣列或 pandas 資料幀

配置計算目標,以便為模型定型,如你本地計算機、 azure 機器學習計算、 遠端 vm 或 azure databricks。

配置自動化的機器學習引數,確定通過不同的模型超引數設定的迭代數高階預處理/特徵化,以及要在確定最佳的模型時,查詢的指標。 

提交訓練執行。

在訓練期間,azure 機器學習服務會建立多個嘗試不同演算法和引數的管道。 它將停止後它會命中在試驗中定義的退出條件。

此外可以檢查記錄執行的資訊,其中包含執行期間收集的指標。 訓練執行生成 python 序列化物件 (.pkl檔案),其中包含的模型和資料預處理。

導航到你的工作區的左窗格中。 在創作 (預覽版) 部分下選擇自動機器學習。

如果這是你第一次執行任何使用自動化的機器學習試驗,你將看到以下資訊:

否則,你將看到自動機器學習儀表板與所有自動化機器學習試驗,包括那些執行隨 sdk 的概述。 此處可以篩選和按日期瀏覽在執行過程中,試驗名稱,並執行狀態。

選擇建立試驗按鈕以填充以下窗體。

輸入試驗名稱。

選擇計算的資料事件探查和訓練作業。 在下拉列表中提供了您現有的計算資源的列表。 若要建立新的計算,請執行步驟 3 中的說明。

選擇建立新的計算按鈕以開啟下方窗格中,並配置對於此試驗計算上下文。

描述計算名稱

輸入用於標識您的計算上下文的唯一名稱。

虛擬機器大小

選擇在計算的虛擬機器大小。

其他設定

最小節點:輸入在計算節點的最小數目。 最小的 aml 計算節點數為 0。 若要啟用資料事件探查,您必須具有乙個或多個節點。 

最大節點:根據計算輸入的最大節點數。 預設值為 6 個節點的 aml 計算。

若要開始建立新計算,請選擇建立。 這可能需要一些時間。

選擇你的資料的儲存帳戶。 公共預覽版僅支援本地檔案上傳和 azure blob 儲存帳戶。

選擇乙個儲存容器。

從儲存容器,選擇乙個資料檔案或上傳到容器的檔案從本地計算機。

使用預覽和配置檔案選項卡進一步配置你的資料對於此試驗。

選擇訓練作業型別: 分類、 回歸或**。

選擇目標列。 其想要對**的列。

用於**:

(可選)高階設定: 可用於更好地控制訓練作業的其他設定。

描述主要指標

用於進行評分模型的主要度量。

退出條件

當滿足以下任意條件時,訓練作業結束之前完全完成。 

訓練作業時間 (分鐘):允許執行訓練作業的時間。 

最大迭代數:管道 (迭代) 中,以便測試在訓練作業的最大數目。 該作業將不會執行多個指定的迭代次數。 

指標分數閾值:所有管道的最小指標分數。 這可確保,如果您想要達到定義的目標度量值,則執行不花更多時間比實際所需的訓練作業。

預處理選擇此選項可以啟用或禁用通過自動的機器學習的預處理。 預處理包括自動資料清理、 準備,和轉換以生成綜合的功能。

驗證選擇乙個要在訓練作業中使用的交叉驗證選項。 

併發選擇你想要使用多核計算時使用的多核限制。

已阻止的演算法

選擇你想要從訓練作業中排除的演算法。

跨您的資料集以驗證您的資料集是否是機器學習準備就緒,可以獲取各種匯**計資訊。 對於非數字列,其中包括 min、 max 和錯誤計數等的僅基本統計資訊。 對於數值列,您還可以檢視其統計一點時間,估計分位數。 具體而言,我們的資料配置檔案包括:

在配置在實驗時,可以啟用高階的設定preprocess。 因此,這樣做意味著自動執行以下資料預處理和特徵化步驟。

描述刪除較大的基數或者無差異的特徵

請先刪除這些從訓練和驗證集,包含所有缺失,相同的值之間的所有行或具有極高基數 (例如,雜湊、 id 或 guid) 值中包括的功能。

估算缺失值

數字特徵,輸入與列中值的平均值。

分類特徵、 輸入與最常用的值。

生成其他特徵

對於日期時間特徵:年、月、日、星期、年日期、季、年周、小時、分鐘、秒。

對於文字特徵:根據獲得、 雙元語法和三元字元語法的字詞頻率。

轉換和編碼

很少唯一值的數字功能會被轉換為分類特徵。

獨熱編碼為較小的基數分類; 執行為高的基數,乙個熱的雜湊編碼。

詞嵌入文字特徵化器,可將文字標記的向量轉換到句子向量使用預先訓練的模型。 在文件中的每個單詞嵌入向量被聚合在一起以生成文件特徵向量。

目標編碼

分類特徵、 將對映與平均的目標值對於回歸問題,並為每個類分類問題的類概率的每個類別。 基於頻率的權重和 k-摺疊交叉驗證用於減少通過對映和干擾引起的稀疏資料類別中調整。

文字目標編碼

文字輸入具有包的單詞的堆積線性模型用於生成每個類的概率。

證據 (出錯) 的權重

計算為分類列與目標列的關聯的度量值出錯。 它的計算方式的類在 vs 擴充套件類的概率的比率的日誌。 此步驟中輸出每個類的乙個數字特徵列,並且無需顯式使用者輸入缺失值和離群值處理方法。

分類距離

訓練的 k 平均值聚類分析模型對所有數字列。 輸出 k 新功能,每個群集,其中包含每個示例與每個群集的形心的距離的乙個新數字功能。

若要執行此試驗,請單擊開始。 實驗準備過程需要幾分鐘的時間。

實驗準備階段完成後,你將看到執行詳細資訊螢幕。 這樣,您建立的模型的完整列表。 預設情況下,最高評分的模型基於您的引數列表的頂部。 如訓練作業嘗試出更多的模型,則將它們新增到迭代列表和圖表中。 使用迭代圖表以獲取到目前為止生成的模型的快速度量值的比較。

訓練作業可能需要每個管道完成執行一段時間。

向下鑽取的任何輸出模型,以檢視執行詳細資訊,如效能指標和分發圖表的訓練。 

Azure自動化部署服務 2

本文將介紹如何使用證書的方式實現azure automation與azure的subscription的連線方式。一.建立證書 通過openssl建立private key certification和pfx檔案 a.建立private key openssl genrsa out hwazure....

使用Python進行自動化測試

原文 目前大家對python都有乙個共識,就是他對測試非常有用,自動化測試裡python用途也很廣,但是python到底怎麼進行自動化測試呢?今天就簡單的向大家介紹一下怎麼使用python進行自動化測試,本文只是自己的一點點分享,若有錯誤,請大家多多批評指正。這裡主要介紹的是一些python測試的框...

學自動化測試

初步接觸自動化測試,發現自動化測試的確實有許多值得研究的東西 一 什麼是自動化測試 對於自動化測試的定義,眾說紛紜。從網上摘了個比較好的 自動化測試是把以人為驅動的測試行為轉化為機器執行的一種過程。通常,在設計了測試用例並通過評審之後,由測試人員根據測試用例中描述的規程一步步執行測試,得到實際結果與...