大資料分析模型到底需要滿足哪些條件?

2021-09-23 03:03:44 字數 1191 閱讀 1147

無論在報紙、雜誌、機場**,還是在酒吧的閒談中,大資料都成了乙個熱門話題。每個人都在談論這個時尚的話題,但迄今為止只有極少數企業真正成功的運用這一技術!導致這一情況的重要原因就是企業對建立可操作的大資料分析模型成功關鍵因素缺乏深刻的認識。結合多年來與多家全球性公司合作經驗,我們認為:為了取得成功,大資料分析模型需要滿足如下幾種要求:

(1)業務相關性。業務相關性是對分析模型的第乙個關鍵要求。分析模型必須能夠解決特定的商業問題。那些效能優越,卻不能解決商業問題的模型是毫無意義的。顯然,在模型開發前,對商業背景和業務問題有全面的理解必不可少。例如,在保險欺詐檢測問題中,必須在一開始對如何定義、衡量和管理欺詐有清晰的界定。

(2)統計效能。影響模型成功的另乙個重要關鍵因素是模型效能表現。換句話說,從統計意義的角度,分析模型應該顯著提高**或描述的效能。根據分析問題的型別不同,常常採用不同型別的效能評價指標。在客戶細分,統計評價指標主要評價對比簇內的相似性與簇間的差異性;在客戶流失**中,主要評價模型是否賦予了潛在流失客戶的較高得分。

(3)解釋性和合理性。解釋性是指分析模型容易為決策者所理解,合理性是指模型與專家的預期和業務知識相一致。解釋能力和合理性都是主觀判斷,取決於決策者的知識和經驗。這兩個因素與統計效能分析之間常常是矛盾的,譬如:複雜神經網路和隨機森林模型**效能較好,但是解釋性較差。所以,決策者需要在兩者之間尋找平衡點。在信用風險分析等應用場景中,解釋性和合理性是非常重要的因素,而在欺詐檢測和營銷響應建模中,這一因素就不是那麼重要了。

(4)執行效率。執行效率涉及模型評估、監測、檢驗及重建過程中所需投入的時間。從這個因素來看,很明顯的神經網路或隨機森林效率較低,而回歸模型和決策樹等更有效率。在信用卡欺詐檢測等業務場景中,執行效率是非常重要的,因為所有的決策必須在信用卡交易開始後幾秒鐘內完成。

(5)經濟成本。經濟成本是收集模型所需資料、執行模型以及分析模型結果的過程中所投入的成本,此外還包括引入外部資料和模型的成本。在分析模型的經濟回報時,所有的這些成本都必須考慮在內,通常不是能簡單直接計算出來的。

(6)合規性。在很多行業中,合規性變得越來越重要。合規性是指模型對現有制度和法律的遵從程度。在信用風險領域,分析模型符合巴塞爾協議ii和iii的規定尤其重要。而在保險行業中,模型則必須遵從歐盟償付能力協議(solvency ii) 。

總結以上,在本部落格文章中,我們簡要論述了成功構建資料分析模型的關鍵因素。如我們所指出的那樣,每個因素的重要性取決於模型應用場景。

原文發布時間為:

2023年1月5日

大資料分析模型到底需要滿足哪些條件?

無論在報紙 雜誌 機場 還是在酒吧的閒談中,大資料都成了乙個熱門話題。每個人都在談論這個時尚的話題,但迄今為止只有極少數企業真正成功的運用這一技術 導致這一情況的重要原因就是企業對建立可操作的大資料分析模型成功關鍵因素缺乏深刻的認識。結合多年來與多家全球性公司合作經驗,我們認為 為了取得成功,大資料...

從事大資料分析工作需要具備哪些技能?

大資料時代已經來臨,對複雜凌亂的資料進行整合分析,獲取有用的資訊,去支撐政策的制定 決策的形成以及工作的完成,必將成為未來決策重要的手段!從事大資料工作的職位可稱之為大資料工程師,大資料工程師 往往不是乙個人,而是乙個團隊,它意味著從資料的收集 整理展現 分析和商業洞察 以至於市場轉化的全過程。這個...

信訪分析 大資料 常見的大資料分析模型

今天我們主要為大家講解在做大資料視覺化時,有哪些常見得到資料分析模型。資料模型可以從兩個角度來區分 資料和業務。統計資料視角的實體模型通常指的是統計分析或大資料探勘 深度學習 人工智慧技術等種類的實體模型,這些模型是從科學研究視角去往界定的。1 降維 對大量的資料和大規模的資料進行資料探勘時,往往會...