大資料雜談

2021-08-27 20:19:09 字數 1268 閱讀 7248

談到大資料,讓我想起了乙個段子,說人們談大資料就像青少年談**,每個人都談的頭頭是道,但都不知道對方說的是什麼玩意,同時還要裝做自己都聽懂了。

好在這些曾經的青少年,有的也已經過了**禮,或多或少的有了一些經驗,沒有了當初的青澀和懵懂,也沒有當初那麼健談。

再說起大資料時,已經從最開始的狂熱,逐步變得理性,或者有意地做理性的思考。

這不光是大資料,幾乎所有的概念、技術出來都會經歷這樣乙個過程,恍如曾經的物件導向、設計模式、ajax、資料倉儲、推薦系統、網際網路+,,,,都不可避免的走這麼一遭。

這有點像機器學習中的退火演算法,要想求得最優解,需要將初始解「加熱」到隨機態。

退火這個概念是從物理學中借鑑過來的,那退火之前要做什麼呢? 「加熱」。

這個加熱到退火的過程,像極了某些概念剛出道時的甚囂塵上,以及之後的理性回歸。

就跟鐵匠打鐵,要先加熱,不加熱就不能鍛造;然後要冷卻,不冷卻就不能成器。

現在的大資料,已經過了其溫度最高的時候。

這並不是說它現在不火了,恰恰相反,乙個「火」著的東西,是很難創造什麼真正價值的,因為它光顧著火了,什麼都做不了。

那開始冷卻的大資料概念,怎麼樣才能發揮其應有的價值,給這些追隨它的信徒們帶來白花花的銀子呢?

或者乙個更直接、更實際的問題:乙個公司,大資料工作如何開展,才能真正有效、物有所值?

這個問題,很難有統一的、技術層面的答案。

不過,我覺得首先得明確以下幾點,大資料才有可能發揮其真正的威力。

首先,大資料不是萬能的,而且也沒有什麼東西是萬能的。

1.  既然不是萬能的,你就要明確,你希望大資料能幫助你解決什麼問題。

2. 大資料,最不能少的就是資料,要解決什麼問題,就要有可能解決該問題所需要的資料,否則就是無公尺之炊。

3. 有了問題,有了資料,還要有人,要有對問題理解透徹、同時能搞的定資料的人。

上訴三點,缺一不可,缺少任何一項都會讓你在錯誤的道路上越走越遠。

有一些公司和團隊,做大資料就是狂造平台,以為造乙個大的平台放資料,就是大資料了。

還有一些,拼命招人,以為招幾個所謂的大牛就能幫祝你在風口優雅地飛起來。

當然這還不是最糟糕和令人惋惜的,最令人痛心的是:有了超一流的資料平台, 也有了超一流的團隊,但是沒有想清楚問題是什麼,沒有商業模式、沒有場景、沒有問題。

物不能盡其用,人不能盡其才。 what a pity!!!

大資料實施關鍵:

資料、人、商業場景,乙個都不能少。 

雜談大資料

王堅博士在書中提到,大資料這個叫法是有些許錯誤的。於是,我便帶著這個問題 大資料不叫大資料,那它應該叫什麼?去認真的閱讀了此書。下面分享一下,我對這個問題的些許看法。大資料 雲計算是共生體。為什麼將它們兩個放在一起呢?因為它們兩個誰也離不開誰,準確的來說它們兩個算得上一對宿命鴛鴦。資料不計算永遠產生...

大資料雜談之 HIVE和HBASE區別

1.兩者分別是什麼?apache hive是乙個構建在hadoop基礎設施之上的資料倉儲。通過hive可以使用hql語言查詢存放在hdfs上的資料。hql是一種類sql語言,這種語言最終被轉化為map reduce.雖然hive提供了sql查詢功能,但是hive不能夠進行互動查詢 因為它只能夠在ha...

資料倉儲雜談

昨天跟同事聊了下目前哪些行業資料倉儲比較領先,各個行業的資料倉儲是怎麼做的,跟網際網路比,差別是什麼東西,前期資源評估,資料庫選型怎麼搞等。有點心得,記錄如下 1,目前來看,金融,保險,通訊,網際網路,物流這幾個行業的資料倉儲做的比較領先,其中由於金融和通訊的業務模型比較穩定,清晰,所以基本上從業務...