文思海輝 資料科學家要技術與業務兼通

2021-09-04 17:46:51 字數 1478 閱讀 6976

資料科學家主要從事資料分析工作,從海量資料中挖掘有價值的資訊。如果乙個專案只是側重資料的獲取與儲存,那麼可能需要的是熟悉平台架構的資料庫工程師或架構師;如果專案側重資料分析,那麼資料科學家就是必需的。

技術與業務相結合

文思海輝金融事業群商業智慧型事業部解決方案高階經理馬寧認為,資料科學家對資料的分析可劃分為兩大類:探索型和**型。探索型旨在尋求複雜資料的內部結構,典型應用如著名的沃爾瑪超市「啤酒與尿布」的案例。**型旨在利用歷史資料**未來,典型應用如銀行定量判斷乙個信用卡客戶潛在的違約可能性。

馬寧將乙個資料科學家需要具備的基本的素質和能力歸納為以下四點:第一,資料科學家應具有資料加工處理的能力,熟悉關係型資料庫的sql語言;第二,資料科學家應具有統計建模的能力,熟悉sas、spss、r這樣的統計軟體;資料科學家至少應該熟悉某一領域的業務知識,如銀行、**、電商、醫療等;第四,資料科學家應具備將統計模型的結果用業務熟知的語言來表述,或利用視覺化技術將複雜結果做清晰展現的能力。

馬寧本科學的是數學專業,碩博連讀期間從事的是醫療資料分析,工作後則主要從事金融行業的資料分析。「在公司中,我的工作是為金融領域的客戶提供資料分析與挖掘解決方案,主要涵蓋客戶智慧型與風險管理兩大領域:前者旨在幫助金融機構更好地了解其客戶,提供基於客戶生命週期的有針對性的服務策略,後者旨在幫助金融機構防範信用、流動性和市場風險,提供反洗錢、反欺詐的偵測。」馬寧介紹說。

在不同型別的企業中,資料科學家的具體工作內容也會有差異。比如,文思海輝作為全球領先的服務提供商,承接了不同行業的開發專案,其資料科學家團隊必須熟悉多個領域的業務。「我們面對的主要是金融業的客戶,因此我們的資料科學家團隊必須熟知銀行、**、保險領域的業務需求,但在一般的商業企業中,其資料科學家只需要熟悉該企業自身的業務即可。」馬寧表示。

資料科學家是乙個團隊

大資料的概念近兩年非常火,但軟硬體廠商以及服務提供商目前在這個領域還處於摸索階段,在國內甚至國際上真正能落地的大資料專案並不多。需要說明的是,大資料並不是產生資料科學家的必要前提,儘管兩者存在著千絲萬縷的聯絡。資料科學家在傳統的結構化資料領域一樣可以大展拳腳,國內外的無數案例證明了這一點。不過,馬寧指出,相對於傳統資料,大資料對資料科學家提出了更高的要求,例如將非結構化資料轉換為結構化資料的能力,以及利用hadoop這樣的分布式架構實現快速海量資料分析的能力等。

任何乙個新興領域的概念基本都會經歷提出、發展、泡沫、泡沫破滅、價值回歸、成熟的週期。馬寧認為,資料科學家正處在發展階段,並不是噱頭,但已經顯露出一些泡沫的端倪。未來泡沫的破滅並不意味著資料科學家的消亡,反而是它走向成熟的必由之路。

乙個人難以精通資料業務的方方面面。因此,馬寧更建議企業成立乙個資料科學團隊,團隊內的每個人都專注於自身擅長的領域。文思海輝正在這條路上探索前進。中國的資料科學家階層已經初步形成,並伴隨著大資料等新技術的發展不斷成長壯大。馬寧認為,資料科學家更側重資料分析與挖掘,其**主要是資料分析師(在某些語境下二者就是同一概念),而不太可能是資料庫工程師。某些企業將來會為資料科學團隊設立單獨的cdo(chiefdataofficer)職位。

資料分析師與資料科學家的區別

時下,網際網路大風盛行,資料科學家憑藉 科學家 這一高大上的名稱,成功蓋過資料分析師的 名氣 被很多企業當作業務指導的 神明 一旦企業在經營過程中,遇到業務發展問題,他們第乙個就會想到找資料科學家處理,而不是資料分析師。但是,這真的是最好 最正確的選擇嗎?今天,我們就來好好聊一聊資料科學家與資料分析...

資料科學家需要掌握的10項統計技術,快來測一測吧

摘要 本文給出了資料科學應用中的十項統計學習知識點,相信會對資料科學家有一定的幫助。無論你是不是一名資料科學家,都不能忽視資料的重要性。資料科學家的職責就是分析 組織並利用這些資料。隨著機器學習技術的廣泛應用,深度學習吸引著大量的研究人員和工程師,資料科學家也將繼續站在技術革命的浪潮之巔。雖然程式設...

資料科學家需要掌握的10項統計技術,快來測一測吧

摘要 本文給出了資料科學應用中的十項統計學習知識點,相信會對資料科學家有一定的幫助。無論你是不是一名資料科學家,都不能忽視資料的重要性。資料科學家的職責就是分析 組織並利用這些資料。隨著機器學習技術的廣泛應用,深度學習吸引著大量的研究人員和工程師,資料科學家也將繼續站在技術革命的浪潮之巔。雖然程式設...