別再嘴炮概念了!大資料是硬漢之戰,你的肌肉呢?

2022-09-02 04:39:10 字數 2402 閱讀 4766

華盛頓大學奧林商學院做過乙個調查,10年內,世界五百強企業榜單中,40%將會消失。

以前的企業講究聚沙成塔——

埋頭苦幹、一磚一瓦,從嶄露頭角到行業先鋒,終換得大廈平地起。

現在聰明的築塔人都轉去逐浪。踩在網際網路這一浪上,看著下一浪的浮現,他們在等新it(intelligence technology)底層技術成熟。

作為機敏的鯊魚,leader們左右嗅嗅,會聞到海水中的血腥味兒。隨著他們弄懂如何改造效率低下的公司,從而更好、更快、更廉價地為消費者提供一切的時候,舊的系統、故步自封的壟斷者將會崩潰。

熟悉科技前沿領域的業內人士有乙個共識,目前,如果把ai、機械人管家、腦機介面、智慧型穿戴等領域視為乙個個天資聰穎、潛能無限的嬰兒,那哺育他們的「奶粉」必須是高質量、且經過處理的資料——尤其是實時資料。

由實時資料處理引發的應用,往往會顛覆絕大多數人對效率的認知。比如,物聯網iot領域中,實時的裝置資料分析可以在1秒內檢測出系統故障,同時做出維護性的**;在金融領域,交易系統的資料不止需要實時呈現給客戶,更重要的是以最快速度,遞交自動交易系統進行處理;it領域,軟體系統的日誌收集和處理對服務異常報警和故障的檢測至關重要;而在交通領域,實時的交通資料經由處理,已經用來做交通指揮的優化。

最具有代表性的是電商,那些因新零售拔地而起的平台,握有海量使用者交易資料和後台商品更新資料,此類資料對實時性的要求極高:交易處理,後台呈現,支付後的快速響應,以及出現糾紛時的解決……都仰仗著伺服器支撐。特別是現在打折,**,秒殺,砍價等營銷模式層出不窮,如果系統出現問題,那麼電商平台失去的流量與承受的損失將十分巨大。因此接入資訊,監管商品交易資料並且做到實時處理,這對於此類企業來說尤為重要。

此外,大資料時代,企業銷售端的進軍方向會逐步靠攏到智慧型推薦系統。傳統的推薦系統採用定期對資料進行分析的做法來更新模型。因其定期更新的特性,推薦模型無法保持實時,對使用者當前的行為推薦結果不夠精準。在此類場景中,實時資料分析便等同於一眼看透消費者的導購。

新it浪潮中,實時的資料收集與基於資料的分析處理已經是大勢所趨。但在資料種類越來越多,產生速度越來越快,資料量越來越大的當下,許多企業正面臨技術與裝置的限制,實時資料處理的技術壁壘已浮出水面。總結來說,主要的困難在於:

1、資料量非常大;系統要求非常高,處理資料時,容不得絲毫故障甚至宕機,實時處理的系統要求也遠遠高於離線系統。

2、實時處理系統規模跟不上業務增長的需求;很多實時資料(比如金融的**分析)需要專門的時序資料庫技術,而這些技術並不普及。

3、自行搭建開源元件,比如kafka, storm和hbase,不是一件容易的事情,hadoop開源元件的部署和運維都需要耗費大量的金錢和人力。

究其根本,實時資料處理的三個最根本的需求是:資料的接入,資料的實時分析處理,和資料的儲存。針對日益增長的,在雲上對資料進行實時處理的需求,華為雲ei服務產品部開發了實時資料處理「三劍客」:

資料接入服務(dis),實時流計算服務(cloud stream service,簡稱cs)和**儲存服務(cloudtable)。

• 資料接入服務(dis)是華為雲提供的完全託管的實時資料接入服務。dis提供了靈活資料採集、高效資料傳輸、實時資料分發能力,讓使用者輕鬆構建基於實時資料的分析和應用。

• 實時流計算服務(cs)是實時流式大資料分析服務,完全託管計算資源和serverless體驗,即時執行作業,提供低延時高吞吐的智慧型流計算平台。

• **儲存服務(cloudtable)是基於apache hbase提供的分布式、可伸縮、全託管的nosql資料儲存服務,提供了毫秒級的隨機讀寫能力,適用於海量結構化資料、半結構化資料儲存和查詢應用。同時基於opentsdb和geomesa提供時序資料庫能力和時空大資料查詢、分析能力。

何達炳曾在微博上回應過anilmenon:「誰來判斷華為創新能力?應該是市場和客戶。」目前華為雲上已有諸多標桿客戶使用「三劍客」服務對實時資料進行處理。某燃氣集團,通過使用dis,

cs和cloudtable構建了新的覆蓋全國的巡線系統,將巡線實時監控系統端到端查詢效能從十幾秒降低到秒級以內。某金融初創企業,實時交易**系統充分利用cloudtable內建的opentsdb能力,實時快速重新整理15種時間窗的****。某網路零售實時輿情系統,使用dis接入資料的價效比遠遠超越線下自建系統,使用cs進行sql程式設計輕鬆完成資料清洗。

網際網路從蠻荒生長到深耕細作不過幾年,伴隨著市場的成熟,如何提供更好的服務、更快的資料決策,成為競爭的關鍵點。實時資料處理作為其中的一項關鍵技術,自然在業界中廣泛流行。「借技術起勢能」,最大限度地挖掘「熱資料」的價值,成為各大企業的共識。

我們生活在乙個不斷瓦解的時代,不過這是一件好事。

行業會被顛覆,大公司會垮掉。

多少企業、投資人和創業者,未意識到新it時代的到來,只顧在網際網路+o2o的960萬平方公里的大床上high得如痴如醉時,千帆已過。

抓住實時資料處理這一浪。

Lucene使用前概念了解

資料庫中的搜尋很容易實現,通常都是使用sql語句進行查詢,而且能很快的得到查詢結果。為什麼資料庫搜尋很容易?因為資料庫中的資料儲存是有規律的,有行有列而且資料格式 資料長度都是固定的。我們生活中的資料總體分為兩種 結構化資料和非結構化資料。結構化資料 指具有固定格式或有限長度的資料,如資料庫,元資料...

資料結構 概念了解

這只是我的一些筆記 資料結構與演算法廣義理解 資料結構與演算法的全面知識點 10個資料結構 10個演算法 邊學邊練 這一招非常有用。建議你每週花1 2個小時的時間,集中把這週的三節內容涉及的資料結構和演算法,全都自己寫出來,用 實現一遍。知識需要沉澱,不要想試圖一下子掌握所有 時間複雜度 大o時間複...

網路 一些概念了解

reactor和proactor模式的主要區別是真正的讀取和寫入操作,是由誰來完成的。reactor 應用程式自己讀取或者寫入資料。應用程式完成 proactor 應用程式不需要進行實際的讀寫過程,只需要從快取區讀取或者寫入即可。核心會讀取快取區或者寫入快取區到真正的io裝置。核心完成 同步和非同步...