資料質量問題是「技術」問題還是「業務」問題?

2021-08-19 07:56:55 字數 4002 閱讀 4606

是不是感覺漫畫中的場景很熟悉?沒錯,這種場景幾乎每天都在企業中重複上演。

一、資料質量問題的危害

當前越來越多的企業認識到了資料的重要性,資料倉儲、大資料平台的建設如雨後春筍。但資料是一把雙刃劍,它能給企業帶來業務價值的同時也是組織最大的風險**。糟糕的資料質量常常意味著糟糕的業務決策,將直接導致資料統計分析不準確、監管業務難、高層領導難以決策等問題,據ibm統計:

可見資料質量問題已經嚴重影響了企業業務的正常運營,我著手資料質量專案近十年了,在實踐中收穫了一些經驗。以下我將從資料質量問題的**、責任主體等方面著手分析,並給出解決資料質量問題的策略,希望能給大家帶來幫助。

二、資料質量問題**

現在的資料整合融合就和古人築堤壩一樣,古人築堤壩是為約束河水,擴充套件人類的生存空間;今人做資料整合融合,是為了挖掘資料價值,拓展企業的生存空間。那我們就在這個比喻的前提下,分析下資料質量問題的**。

西漢的賈讓在著名的治河文獻《治河策》中提出了治理河水的策略,他認為在沒有修築大堤前,黃河「左右遊蕩,寬緩而不迫」,後來築堤後,河道變窄,發生洪水時洩流不暢,常決口為患。

在企業資訊化初期,各類業務系統恣意生長,這個階段就像沒有修築大堤前的黃河,河水雖然漫流,但是河道寬闊,雖然也有資料問題,但不明顯。

後來業務需求增長,需要按照統一的架構和標準把各類資料整合起來,這個階段就像築堤束水之後的黃河,洩流不暢、決口不斷等問題紛紛出現,資料不一致、不完整、不準確等各種問題撲面而來。

費了九牛二虎之力才把資料融合起來,如果因為資料質量不高而無法完成資料價值的挖掘,那就太可惜了!大資料時代資料整合融合的需求會愈加迫切,不僅要融合企業內部資料,也要融合外部(網際網路等)資料。如果沒有對資料質量問題建立相應的管理策略和技術工具,那麼資料質量問題的危害會更加嚴重。

三、資料質量問題責任主體

人們在解決問題之前,往往會先分析出問題的責任主體,很多人可能在糾結,資料質量問題究竟「業務」的問題還是「技術」的問題?根據我以往的經驗,造成資料質量問題的原因主要分以下幾種:

1、資料**渠道多,責任不明確。

2、業務需求不清晰,資料填報缺失。

3、etl處理過程中,業務部門變更**導致資料加工出錯,影響報表的生成。

我們發現1和2都是業務的問題,3雖然表面看是技術的問題,但本質上還是業務的問題。因此大部分資料質量問題主要還是來自於業務。我在和很多企業做資料治理技術交流的時候,發現很多企業認識不到資料質量問題的根本原因,只從技術單方面來解決資料問題,沒有形成以管理機制,導致效果大打折扣。現在走過彎路之後,很多企業認識到了這一點,開始從業務著手解決資料質量問題了。

四、解決資料質量問題,

應該用「堵」還是用「疏」

弄清楚了資料質量問題**、責任主體後,接下來就應該考慮如何解決。還以古人治理黃河水患為例來說明。

《治河策》中提出了治理水患的三種策略:「徙冀州之民當水沖者」為上策,主張不與水爭地,能使黃河「寬緩而不迫」。中策是「多穿漕渠於冀州地,使民得以溉田,分殺水怒」,簡單說就是分流,是上策的具體措施。下策是「繕完故堤,增卑培薄」,之所以是歸為下策,是因為原來的堤防堤距過於狹窄,且堤線彎曲多變,再這樣的基礎上,無論怎麼加高增厚,洪水問題也無法得到根本解決。

歸納總結下古人治理黃河水患,主要有兩種套路,一種是「疏通」,上策遷移民眾和中策分流黃河水患,都是具體體現;另一種是「圍堵」,加高增厚堤防,抑制河水氾濫。

在治理資料質量的問題時,也可以應用下古人的智慧型和考量。採用規劃頂層設計,制定統一資料架構、資料標準,設計資料質量的管理機制,建立相應的組織架構和管理制度,採用分類處理的方式持續提公升資料質量,這是資料質量管理「疏」的方式。而單純依賴技術手段,通過增加etl資料清洗處理邏輯的複雜度,使用資料質量工具來發現etl資料處理中的問題屬於「堵」的方式,只能解決表面的問題,不是根本的解決方法。這種方式其實也在好多企業中使用,其根本目的在於提高etl處理的準確度,做法無可厚非,畢竟需求的出發點不一樣,面臨的現狀也不一樣。

按照我之前在多個行業實施資料質量管理專案的經驗,資料質量管理的最佳實踐是採用「疏」和「堵」相結合的方式,通過這種方式解決資料質量問題有幾個要點:

1、定義業務問題、規劃頂層設計

在解決資料質量問題之前需要定義清楚業務問題

。是以提高主資料的質量為目標、以整改bi資料問題為目標,還是以滿足風險管理、監管報送要求為目標。

在業務問題定義清楚之後,需要以業務問題為出發點,做頂層設計

。設計好某業務主題的標準,以標準作為資料質量校驗規則的準繩。資料標準的制定不在本文的討論範圍,這裡就不在展開說了。這個是「疏」的最高境界,往往耗費的成本也比較高。

2、建立資料質量閉環管理機制

從問題定義、問題發現、問題整改、問題跟蹤、效果評估5個方面建立相應的管理及認責機制。從業務出發做問題定義,由工具自動、及時發現問題,明確問題責任人,通過郵件、簡訊等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,建立相應的質量問題評估kpi。保證資料質量問題全過程的管理。

3、對不同資料的資料問題分類處理

在時間維度上分,企業資料主要有三類:未來資料、當前資料、歷史資料。在解決不同種類的資料質量問題時,也要採取不同的處理方式。

如果你拿著歷史資料,找業務部門給你做整改,業務部門通常以「當前的資料問題都處理不過來,哪有時間幫你一起追查歷史資料的問題」為理由無情拒絕。這個時候即便是找領導協調,一般也起不到太大的作用。對於歷史資料問題的處理,一般可以發揮it技術人員的優勢,用資料清洗的辦法來解決,清洗的過程要綜合使用各類資料來源,提公升歷史資料的質量。

未來資料的處理,一般要採用做資料規劃的方法來解決,從整個企業資訊化的角度出發,規劃統一企業資料架構,制定企業資料標準和資料模型。借業務系統改造或者重建的時機,來從根本上提高資料質量。當然這種機會是可遇而不可求的,在機會到來之前應該把企業資料標準和資料模型建立起來,一旦機會出現,就可以遵循這些標準。

這樣,通過對不同時期資料的分類處理,採用不同的處理方式做到事前預防、事中監控、事後改善,能從根本上解決資料質量問題,為企業業務創新打通資料關卡。

五、總結

綜上所述,資料質量問題需要業務部門參與才能從根本上解決。要發揮資料資產的價值,需要將組織、技術和流程三者進行有機結合,從業務出發做問題定義,由工具自動、及時發現問題,跟蹤問題整改進度,並建立相應的質量問題評估kpi。通過採用資料質量問題全過程的管理的「疏」和「堵」結合方式,才能最終實現提公升資料質量持續提公升的目標,支撐資料業務應用,體現資料價值。

參考文獻:

[1] dama international著、馬歡、劉晨等譯.dama資料管理知識體系指南.北京.清華大學出版社2012.7

[2]王軒.

建設大資料平台,從「治理」資料談起

[eb/ol],2017-06-23/2017-10-13.

[3]劉慶會.

大資料是否值得信賴——**商業銀行如何提公升資料質量

[eb/ol], 2016-04-14

[4]謝澤添.基於cwm的商業銀行元資料倉儲的研究與應用,2008-09-01

[5]      賈讓.治河三策千古鑑.河北水利,2016(2):36-36

關於作者

劉慶會主要負責普元大資料治理產品的實施,十年大型企業資訊資料治理架構設計與建設經驗,為多家大型金融機構、企業設計與規劃資料管理整體框架和專案實施,客戶包括國家開發銀行、中信銀行、北京銀行、重慶農商行、攀枝花銀行、國家電網、浙江電力、新奧能源以及中國東方航空、中國國際航空等。資料行業有著深入的研究和洞察,並對企業資訊化平台建設,資料治理及大資料平台建設有著豐富經驗。

常見的資料質量問題有哪些

隨著數位化轉型的興起,許多企業都在尋求各種有用的方式蒐集資料,交換資料並使一切員工能夠訪問資料。儘管大多數公司都在運用這類資訊資源中受益,但有些公司仍然面臨著運用資料的精確性的問題。那麼,常見的資料質量問題有哪些呢?1 資料重複性問題 相同記載的多個副本會在核算和儲存上形成很大丟失,但假如未被發現,...

DevOps不是個技術問題,而是個業務問題

當然,devops不乏反對者。反對意見不一而足,有人認為devops是個誤導 devops只是系統管理的乙個新名字而已,新瓶裝老酒 有人 對devops不屑一顧 devops只是一些瘋狂開發者的瘋狂想法,他們想擺脫運維人員,或者,devops只是一些瘋狂運維人員的瘋狂想法,他們想像 開發者一樣工作 ...

大資料融合技術 問題與挑戰

本文為 大資料融合研究 問題與挑戰 的總結。資料的特點 資料湖 資料整合的物件,即資料與知識的複合體。傳統的關係型資料是先有模式 表 再有資料,而資料湖是先有資料再有模式。大資料融合存在的問題 普遍採用3v 海量 高速 型別多樣 特性下的整合技術。關鍵技術 模式 本體對齊 利用屬性名稱 型別 值的相...