機器學習操作正在興起

2022-07-16 08:45:15 字數 2598 閱讀 9321

機器學習操作正在興起

對資料科學家來說,給資料打上標籤並開發出乙個準確的機器學習模型是很困難的,而且在生產中管理模型也可能會更加令人生畏。識別模型漂移、通過更新資料集來對模型進行再訓練、提高效能以及維護底層技術平台都是重要的資料科學實踐。如果沒有這些規程,模型就可能會產生嚴重影響業務的錯誤結果。

開發出乙個可用於生產的模型並非易事。根據一項機器學習的研究,55%的公司沒有將模型部署到生產當中,40%或更多的公司需要30天以上才能部署乙個模型。而即使成功也會帶來新的挑戰,41%的受訪者承認了機器學習模型的版本控制和再現性的困難。

這裡的教訓是,一旦機器學習模型被部署到生產中並在業務流程中被使用,新的障礙就又會出現。

模型管理和操作曾經是更先進的資料科學團隊的挑戰。現在的任務則還包括了監控生產機器學習模型的漂移,自動再訓練模型,當漂移顯著時發出警報,以及識別模型何時需要被公升級。隨著越來越多的組織投資於機器學習,建立模型管理和操作的意識就變得越來越有必要了。

好訊息是,諸如開源的mlflow和dvc等平台和庫,以及來自alteryx、databricks、dataiku、sas、datarobot、modelop等的商業工具,正在使資料科學團隊的模型管理和操作變得更加容易。公共雲提供商也分享了一些實踐,比如azure machine learning所提供的mlops。

模型管理和devops之間有一些相似之處。許多人將模型管理和操作稱為mlops,並將其定義為開發和維護機器學習模型所需的文化、實踐和技術。

理解模型管理和操作

為了更好地理解模型管理和操作,需要考慮軟體開發實踐與科學方法的結合。

作為一名軟體開發人員,你知道完成應用程式的版本並將其部署到生產環境中並非是一件易事。而且,一旦應用程式進入生產環境,乙個更大的挑戰就開始了。終端使用者希望定期進行增強,底層基礎設施、平台和庫也需要打補丁和維護。

現在讓我們轉向科學的世界,在那裡,其問題也會導致多種假設和重複實驗。你在科學課上學會了維護這些實驗的日誌,並能夠跟蹤從乙個實驗到下乙個實驗調整不同變數的過程。試驗會帶來更好的結果,記錄過程則有助於讓同事相信你已經探索了所有的變數,並且結果是可重複的。

使用機器學習模型進行實驗的資料科學家必須結合來自軟體開發和科學研究的學科。機器學習模型是用python和r等語言開發的軟體**,使用tensorflow、pytorch或其他機器學習庫進行構建,執行在apache spark等平台上,並被部署到了雲基礎設施上面。機器學習模型的開發和支援需要大量的實驗和優化,資料科學家必須證明他們的模型的準確性。

像軟體開發一樣,機器學習模型也需要不斷的維護和增強。其中的一些可能來自維護**、庫、平台和基礎設施,但是資料科學家還必須關注模型漂移的問題。簡單地說,當新的資料可用,而機器學習模型所提供的**、聚類、分割和建議又偏離預期結果時,模型漂移就發生了。

成功的模型管理始於開發最佳模型

我與alteryx的首席資料和分析官alan jacobson就組織如何成功地進行機器學習模型開發進行了交談。「為了簡化模型開發,大多數資料科學家所面臨的第乙個挑戰是如何確保擁有乙個強有力的問題表述。許多複雜的業務問題可以通過非常簡單的分析來解決,但這首先需要以資料和分析能夠有助於回答問題的方式來構建問題。即使使用了最複雜的模型,在這個過程中最困難的部分也通常是如何構建資料,並確保使用的正確輸入處於正常的質量水平。」

我同意jacobson的觀點。太多的資料和技術實現是從糟糕的或沒有問題的陳述開始的,而且沒有足夠的時間、工具和專業知識來確保足夠的資料質量。組織必須首先從提出乙個關於大資料的聰明的問題開始,投資於資料操作,然後使用資料科學中的敏捷方法來迭代解決方案。

監控機器學習模型的模型漂移

獲得乙個精確的問題定義對於生產中的模型的持續管理和監控是至關重要的。jacobson繼續解釋道:「監控模型是乙個重要的過程,但想要正確地進行監控就需要對需要監控的目標和潛在的不利影響有深刻的理解。雖然大多數人討論的是監測模型的效能以及隨時間的變化,但在這個領域,更重要和更具挑戰性的是對意外結果的分析。」

理解模型漂移和意外結果的乙個簡單方法就是考慮covid-19對那些使用了大流行前的訓練資料所開發的機器學習模型的影響。基於人類行為的機器學習模型、自然語言處理、消費者需求模型或欺詐模式都受到了大流行期間不斷變化的行為的影響,而這些變化擾亂了人工智慧模型。

隨著越來越多的組織開始獲得價值並使資料科學程式日趨成熟,技術提供商也正在發布新的mlops功能。例如,sas引入了乙個特徵貢獻指數,能夠幫助資料科學家在沒有目標變數的情況下評估模型。cloudera則於最近宣布了一項ml監控服務,它可以捕獲技術效能指標和跟蹤模型**。

mlops還解決了自動化和協作的問題

在開發乙個機器學習模型和在生產中監控它之間,還有一些額外的工具、流程、協作和使資料科學實踐能夠得以擴充套件的能力。一些自動化和基礎設施就像是devops,包括了適用於機器學習模型的基礎設施即**和ci/cd(持續整合/持續部署)。還有一些其他的開發人員的能力,例如使用底層培訓資料來對模型進行版本控制,以及搜尋模型儲存庫。

mlops更有趣的一面是為資料科學團隊帶來了科學的方法和協作。例如,datarobot啟用了乙個冠軍-挑戰者模型,該模型可以並行執行多個實驗模型,以挑戰生產版本的準確性。sas希望幫助資料科學家提高進入市場的速度和資料質量。alteryx則於最近引入了analytics hub,以幫助資料科學團隊之間的協作和共享。

所有這些都表明,管理和擴充套件機器學習需要更多的紀律和實踐,而不是簡單地去要求資料科學家使用python編寫和測試乙個隨機森林、k均值或卷積神經網路。

機器學習工程師職位正在消失

隨著機器學習技術的發展,主打易用性 無需專業知識 人人皆可用的機器學習工具和平台正在成為主流,谷歌 微軟 saleforce uber等公司紛紛推出了相應的產品。毋庸置疑,這些產品大大降低了機器學習的准入門檻,讓越來越多非專業人士得以快速將機器學習應用到實際工作中。但這也引出了乙個疑問 我們真的需要...

機器學習工程師職位正在消失

隨著機器學習技術的發展,主打易用性 無需專業知識 人人皆可用的機器學習工具和平台正在成為主流,谷歌 微軟 saleforce uber等公司紛紛推出了相應的產品。毋庸置疑,這些產品大大降低了機器學習的准入門檻,讓越來越多非專業人士得以快速將機器學習應用到實際工作中。但這也引出了乙個疑問 我們真的需要...

機器學習工程師職位正在消失

隨著機器學習技術的發展,主打易用性 無需專業知識 人人皆可用的機器學習工具和平台正在成為主流,谷歌 微軟 saleforce uber等公司紛紛推出了相應的產品。毋庸置疑,這些產品大大降低了機器學習的准入門檻,讓越來越多非專業人士得以快速將機器學習應用到實際工作中。但這也引出了乙個疑問 我們真的需要...