解決20 的大資料問題

2021-09-05 08:31:08 字數 2508 閱讀 7611

乙個採用模組化設計的大資料平台可以解決80%的大資料問題,而解決另外20%的問題就要靠大資料平台廠商結合行業客戶的特殊需求進行定製化開發。中興通訊dap 2.0大資料平台就具備了這方面的能力,能夠為行業客戶帶來實實在在的價值。

大資料的本質在於,可以提公升人類活動的準確性,減少傳統方式下的試錯成本,從而提公升社會的整體效率。比如,現在熱門的精準營銷就是通過大資料提高廣告的準確性,減少對無效客戶的推送,以提高資訊傳播的效率。中興通訊股份****(以下簡稱中興通訊)中心研究院副總裁陳堅表示:「歸根結底,大資料通過提高人類活動的準確性來提高整個社會的生產效率。」

平台化、模組化架構更靈活

中興通訊在大資料方面已經進行了多年研究,其研發的dap大資料平台在電信、金融、智慧型城市、公安等行業廣受使用者好評。在近日舉行的第四屆大資料世界論壇(bdwf 2014)上,中興通訊的大資料平台dap 2.0榮獲了「最佳大資料平台管理方案獎」。

中興通訊中心研究院總工王德政將dap 2.0的特點歸納成三個方面。

第二,在資料分析和挖掘層面,dap 2.0具有智慧型生成的特徵,可以提高企業活動的準確性。大資料系統是否具有智慧型,從而替代人類專家,將是區分大資料系統與傳統it系統的關鍵特徵。乙個無法生成智慧型的系統,無論資料量有多大,充其量也就是乙個大型的傳統it系統,而不是大資料系統。dap 2.0通過有針對性的挖掘演算法改進,可以提出超越人類專家經驗與直覺的智慧型建議,從而提公升人類活動的準確性,提高社會生產力。

第三,dap 2.0具備平台的特性。dap 2.0作為中興通訊公司級的大資料平台,聚焦於資料的儲存、處理時效和挖掘演算法,為上層應用破解大資料應用的技術難點與障礙,並可根據上層應用的需求,快速進行定製開發,在很短的時間週期內,以更低的研發成本推出新的大資料應用。未來,dap 2.0還將向第三方開放,以支撐第三方的大資料業務開發。

王德政補充說:「dap 2.0從技術架構上保證了大資料專案實施的可靠、穩定和高效。比如,dap 2.0採用模組化的架構,改動其中任意乙個模組並不會影響整個系統的功能和穩定性。另外,我們可以針對不同行業的具體需求進行大資料平台的定製,而這個具有行業特徵的大資料平台一旦在某個行業的乙個使用者中成功實施,就可以在整個行業中複製和推廣。」

大資料平台有明顯的行業特性。乙個通用的大資料平台並不能被行業使用者直接採用,而是要根據行業需求進行建模和演算法優化,才能發揮其應有的作用。打個比方,如果乙個通用的大資料平台能夠滿足客戶80%的需求,那麼另外20%的工作就是要結合客戶的具體需求進行二次開發和優化。

大資料平台水到渠成

大資料處理技術,特別是雲儲存與雲計算技術的成熟與廣泛應用,為大資料的儲存與處理提供了技術可能性。企業可以利用生產系統和管理系統中產生的大量資料,對自己的生產活動進行更為準確的**與指導,從而提高企業生產活動的準確性。另一方面,企業還可以通過對資料價值的挖掘,創造出更多新型業務。

電信行業是大資料應用最典型的乙個行業。比如,電信運營商可以通過智慧型終端採集的大量資料了解網路執行的狀況或判別網路故障,以便及時進行優化,從而改善客戶的應用體驗。智慧型城市是另乙個大資料應用的典型場景。智慧型城市的其中乙個職能就是將海量資料收集上來,以改進城市基礎設施,方便百姓生活。陳堅表示,大資料就是將以前只有少數專家才做的資料分析和挖掘,通過建模和演算法更加高效、方便地實現,讓廣大消費者受益。

中興通訊作為電信領域的專家,可以針對電信大資料進行專家級的建模。中興通訊的大資料平台dap 2.0可以利用雲儲存與雲計算等技術,對海量的資料進行儲存、挖掘和分析,以幫助企業充分挖掘資料的價值。

雖然中興通訊大資料平台的產生與中興通訊在電信領域的技術積累和實踐經驗密不可分,但是陳堅明確表示,dap大資料平台是乙個通用的元件化的產品,各個層次與模組之間是松耦合的關係,能夠廣泛應用於不同的行業和應用場景。

乙個標準化的大資料系統,通常包括三個層次:最底層是資料採集層,中間層是資料儲存、加工和挖掘層,最上層是資料建模與應用層。對於大資料平台來說,其聚焦點是資料儲存和分析挖掘,而對於大資料應用來說,其聚焦點是資料採集與建模應用。談到dap大資料平台未來的發展方向,陳堅概括說:「我們的重點將放在計算、儲存、分析和挖掘領域,目標是讓資料探勘更容易,分析更方便。另外,在資料採集層,我們希望實現更有效的資料接入,讓資料的交換和共享更容易。在應用層,我們的策略是開放介面,與行業使用者一起建模,以便更好地挖掘行業資料。」

降低大資料的應用門檻

雲計算從概念的炒作到應用落地,中間經過了幾年時間。與雲計算需要尋找適合的應用切入點和商業模式不同,大資料的概念從提出到轉化為應用的速度非常快。這是因為,資料處理和挖掘是行業使用者的必然需求,而以前只是因為工具的限制,抑制了行業使用者的需求。隨著大資料技術的成熟和工具的豐富,行業使用者的大資料需求一下子爆發出來。陳堅也認同此觀點:「大資料平台可以提公升資料處理和挖掘的效率,為使用者帶來實實在在的價值,最典型的例子就是精準營銷。資料擁有者本來就具有大資料處理的衝動,這在智慧型城市、公安等領域表現得十分明顯。」

中興通訊除了可以提供大資料平台軟體以外,還提供方便中小企業使用者使用的易擴充套件的大資料一體化解決方案。王德政表示,大資料的落地要考慮兩方面因素:一是技術可行性,二是經濟可行性。從目前情況看,與大資料相關的技術問題已經基本解決,而降低大資料應用的門檻,讓大資料真正給客戶帶來商業價值是行業客戶在部署大資料時要著重考慮的問題。

記憶體不夠解決大資料問題

在研究 應用機器學習演算法的經歷中,相信大夥兒經常遇到資料集太大 記憶體不夠用的情況。這引出一系列問題 有的機器學習工具 庫有預設記憶體設定,比如 weka。這便是乙個限制因素。對於 weka,你可以在開啟應用時,把記憶體當作乙個引數進行調整。你真的需要用到全部資料嗎?可以採集乙個資料的隨機樣本,比...

大資料解決思想

目前大資料,ai,機器學習這麼熱,那我們也要跟緊時代的腳步。記錄下大資料學習之旅。olap的基本多維分析操作有鑽取 roll up和drill down 切片 slice 和切塊 dice 以及旋轉 pivot drill across drill through等。olap有多種實現方法,根據儲存...

大資料問題解決方案

宣告 本文中有兩個簡單的大資料問題,只給出了解決方案的大概描述。1.給定100億個整數,設計演算法找到只出現 次的整數?問題分析 整數的範圍總共有42億左右。如果按照最原始的方法,給每乙個整數分配乙個計數器的話,計數器設為整形,建立以 42億整數作為索引和對應的計數器當成元素的陣列,然後乙個個的遍歷...