機器學習中的五個實際問題及其對業務的影響

2022-07-16 09:03:09 字數 2335 閱讀 3679

機器學習中的五個實際問題及其對業務的影響

如今,很多企業需要快速處理大量資料。與此同時,市場競爭格局正在迅速發展變化,因此企業能夠快速做出決定至關重要。

就像商業管理暢銷書《快魚吃慢魚》的作者jason jennings和laurence haughton所說的那樣:「如今的市場競爭不是大魚吃小魚,而是快魚吃慢魚。」

然而,儘管機器學習提供了巨大的機會,但仍然存在一些挑戰。機器學習系統依賴大量資料以及執行複雜計算的能力,由於客戶期望值發生變化或意外的市場波動等外部因素,這意味著企業需要監控和維護機器學習模型。

此外,在機器學習中還有一些實際問題需要解決。以下將**和研究五個關鍵的實際問題及其對業務的影響。

1. 資料質量

機器學習系統的應用需要大量資料。這些資料可大致分為兩類:特徵和標籤。

特徵是機器學習模型的資料輸入。這些資料可以是來自感測器、客戶調查表、**cookie或歷史資訊的資料。

這些屬性的結果是可變的。例如,客戶可能沒有正確填寫或者不填寫調查問卷;感測器可能會出現故障並傳遞錯誤的資料;**cookie可能會提供關於使用者在**上具體操作的不完整資訊。因此資料集的質量是很重要的,這樣才能正確地訓練模型。

資料也可能充滿無用資訊,這可能會誤導機器學習模型做出錯誤的**。

機器學習模型的輸出是標籤。標籤的稀疏性也是乙個問題,在稀疏的標籤中,使用者可能知道系統的輸入,但不確定輸出是什麼。在這種情況下,檢測模型的特徵和標籤之間的關係可能極具挑戰性。這可能是勞動密集型的工作,因為這需要人為干預來將標籤與輸入關聯起來。

如果沒有輸入到輸出的準確對映,那麼模型可能無法學習輸入和輸出之間的正確關係。機器學習依賴於輸入和輸出資料之間的關係來建立可用於做出**,並為未來行動提供建議的概括。當輸入的資料混亂、不完整或發生錯誤時,很難理解出現特定的輸出或標籤的原因。

2. 複雜性和質量之間的權衡

建立強大的機器學習模型需要大量的計算資源來處理特徵和標籤。編碼複雜的模型需要資料科學家和軟體工程師付出巨大的努力。複雜的模型可能需要大量的計算能力才能執行,並且可能需要更長的時間才能得出可用的結果。

這對企業來說是一種權衡。他們可以選擇做出更快的反應,但準確性可能較低。或者他們可以接受較慢的響應,但可以從模型中獲得更準確的結果。然而進行妥協並不是什麼壞事,因為是否要以更快的響應獲得更高的成本和更準確的模型的決定取決於用例。

例如,向零售購物**上的購物者提出建議需要實時響應,但其結果可能會難以**。另一方面,**交易系統需要更可靠的結果。因此,當不需要實時獲得結果時,使用更多資料並執行更多計算的模型可能會提供更好的結果。

3. 資料中的抽樣偏差

這裡的問題不是具體的模型問題,而是用於訓練模型的資料有其自身的偏差。然而,當人們知道資料是有偏差的,可以採用一些方法來消除偏差或減少該資料的權重。

第乙個挑戰是確定資料中是否存在固有偏差。這意味著要進行一些預處理。儘管可能無法消除資料中的所有偏差,但可以通過人工干預使其影響最小化。

在某些情況下,可能有必要限制資料中的特徵數量。例如,忽略種族或性別等特徵可以幫助限制有偏見的資料對模型結果的影響。

4. 不斷變化的期望和概念漂移

機器學習模型在特定的場景中執行。例如,為零售商的推薦引擎提供支援的機器學習模型在客戶檢視特定產品時的特定時間執行。但是,客戶需求會隨著時間而變化,這意味著機器學習模型可能會偏離其設計要交付的內容。

模型可能會由於多種原因而衰減。將新資料引入模型時,可能會發生漂移。這就是所謂的資料漂移。當人們對資料的解釋發生變化時,也會發生這種情況。這是概念上的漂移。

為了適應這種漂移,企業需要乙個模型,該模型可以使用傳入的資料不斷更新,改進自身。這意味著企業需要不斷檢查模型。

這需要收集大量特徵和標籤,並對更改做出反應,以便可以更新和重新訓練模型。雖然再培訓的某些方面可以自動進行,但需要一些人為干預。人們必須認識到,機器學習工具的部署不是一次性的活動。

此外,企業採用機器學習工具需要定期檢查和更新,以保持相關性並繼續提供價值。

5. 監控與維護

建立模型很容易並且可以實現自動化。但是,維護和更新模型需要計畫和資源。

機器學習模型是從用於訓練模型的特性開始的管道的一部分。然後是模型本身,它是乙個需要不斷修改和更新的軟體。該模型需要標籤,以便輸入的結果可以被模型識別和使用。模型和系統中的最終訊號之間可能存在脫節。

在許多情況下,如果交付的結果出乎意料,如果不是機器學習出現問題,那麼可能是**鏈中的其他部分出現了問題。例如,推薦引擎可能已經向客戶提供了產品,但是有時銷售系統和推薦之間的連線可能會斷開,並且需要花費一定時間查詢錯誤。在這種情況下,很難告訴模型推薦是否成功。對此類問題進行故障排除可能相當耗費人力。

機器學習技術為企業帶來了巨大的好處。**未來結果以影響客戶行為並支援業務運營的能力非常強大。但是,採用機器學習也給企業帶來了挑戰。企業通過認識到這些挑戰並制定解決方案,可以確保他們準備好並有能力應對這些挑戰,並充分利用機器學習技術。

關於C語言日常使用中的實際問題

千萬不要在程式中隨意移動你的指標!因為這個小問題搞了一下午 晚上 字元陣列的容量必須至少比待儲存字串中的字元數多1.在分配字元指標空間malloc 時也必須至少比至少比待儲存字串中的字元數多1,再分配空間後必須及時free 釋放指標後,一定要將指標指向null。否則p指向的空間是未知資料 p就成了野...

社群的3個層次 無聊 孤獨 解決實際問題

解決無聊問題的社群,是初級形態社群,諸如搜狐社群,新浪社群等此類以資訊提供為主的 型社群,著重解決的是人的資訊飢渴,無聊需求。程式設計客棧 搜尋是一種初級形態的社群,靠解決人類對性的無聊需求得以發家,這種無聊需求目前依然在搜尋引擎需求中佔很大比例。高明一點的搜尋引擎開始解決程式設計客棧人的實際 問題...

如何根據實際問題選擇乙個合適的數學模型

數學方法 問題特徵 幾何模型 球面積分,曲面積分,分形理論 常用 圖論模型 優化類,規劃類 最短路徑 最短時間 決策類問題 微分方程模型 人口增長,傳熱導熱問題 概率問題 彩票最優控制模型 藥物療效 規劃論模型 投資問題 馬氏鏈模型 概率模型 前後不關聯 演算法名稱 求解目標 蒙特卡羅演算法 隨機模...