郭全中 對大資料的認識該正本清源

2021-09-20 11:43:14 字數 1134 閱讀 3275

近幾年,大資料已廣泛應用到網際網路輿情、網際網路營銷、內容分發、網際網路金融、人工智慧、智慧型城市建設等領域。然而,在大資料高速發展的同時,也出現魚龍混雜、忽悠盛行的不良現象:有些機構和企業根本沒有大資料能力、但也為趕時髦而自我標榜為大資料公司;有人神話大資料,認為其無所不能;有人認為大資料只研究相關關係而不研究因果關係;還有人認為只要有資料,就萬事大吉。下面就讓我們來逐個討論,反駁上述的片面認識。

大資料仍處於初級階段。雖然大資料必將成為整個社會的底層架構和標配,社會和經濟的方方面面必將被大資料所重構,且大資料在各行各業的應用正得到深化,但上述活動仍處於進行時或將來時,並非既成事實。在這一爬坡過坎的階段,尤其需要大資料從業人員求真務實、腳踏實地地推進大資料產業的發展,不能拔苗助長、飲鴆止渴,否則只能給大資料產業的短期發展注入太多泡沫。一旦泡沫破裂,必將會給大資料產業帶來很大的破壞作用。

大資料既研究相關關係,也研究因果關係。在大資料領域流行的說法是「大資料只研究相關關係而不研究因果關係」,無疑這是很大的認識誤區。從本質上講,大資料從全新的哲學視角給我們提供了更多認識世界的方法,使我們從之前只能研究因果關係而不能研究相關關係,擴大到既能研究因果關係也能研究相關關係。

不過,如果單純從相關關係出發,就可能導致謬誤百出。例如,一些研究人員希望通過分析北京市中小學生的交通資料與其所在學校的相關性,計算學生家庭住址與學校距離的合理區間。如果僅研究因果關係,就會得出「北京市的學校布局很合理而不需要優化調整」的結論,這無疑與北京市優質教育資源分布不均衡的現狀相悖。為什麼會出現這樣的悖論呢?原因在於,北京市很多家長為讓孩子接受更好的教育,紛紛選擇在教學***的學校周邊買小戶型房屋或租房居住,而正是這種教育資源的不均衡導致「天價學區房」的頻頻出現。

大資料尚需要演算法和專家觀點的支撐。很多人認為,只要有資料就可以解決一切問題,其實如果僅有資料而沒有好的演算法和專家觀點,資料只能成為無用的廢料。

在大資料的運用過程中,海量的資料是基礎和前提,但演算法、模型以及專家觀點一樣都不能少。否則,即便輸入同樣的資料,出來的也會是大相徑庭的觀點。例如,雖然很多「樓市專家」都占有大致相同的資料庫,但對房地產市場走勢的判斷卻大為不同。如果一味聽信某些「平民經濟學家」的理論,很多人可能正在四處漂泊,租房居住。反之,若能預見房價**的趨勢,您不僅可解決居住問題,還有機會實現財務自由。

總之,大資料的威力將遠超我們的想象,但是也需要給它一段時間來完善,更需要警惕一些似是而非的錯誤觀點!

對大資料的簡單認識

你好,陌生人,我是一名來自蘭州文理學院資料科學與大資料專業的在校大學生,你可以叫我小v。目的 通過大量的資料分析,可以個性化的為你量身定做各種東西,比如當你想要去電影院看電影時,可以通過你手機的瀏覽記錄,可以推薦你喜歡的型別。到吃飯時間給你推薦適合你口味的飯店。通過這次大資料認知實習,我了解了許多不...

我對大資料的認識

你好,我是來自蘭州文理學院數字 學院資料科學與大資料技術班的一名大學生,你可以叫我小黑。經過這段時間的學習我對大資料有了更好的了解,大資料時代到來最初是麥肯錫 資料已經滲透到當今每乙個行業和業務職能領域,成為重要的產生因素。人們對海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。大...

我對於大資料的認識

今天來說一說對於大資料這個詞的理解 以及初步的認識 以下只是本人簡短學習之後的總結,如有錯誤歡迎指出 我對於大資料的認知是 短時間內快速產生的大量且多種多樣的有價值的資訊 在以往,資料產生速度慢,節奏慢,而現在呢社會科技發展之快是肉眼可見的,當然也有很多是我們還沒真正地感受到,就已經有開始了更先進的...