大資料三個特點的理解

2021-06-22 20:02:46 字數 1678 閱讀 9971

寫這篇文章始於對維克托前輩《大資料時代》的理解與思考,大資料的浪潮已經一波一波地拍打在中國的土地上,各行各業都在積極的探索與這一技術的接軌和發展的機遇,所以能夠見證並親歷這乙個變革技術的時代我們這一代是幸運的。之所以說大資料時代是一次變革,不光是其技術進步所帶來的,其伴隨的思維衝擊與變革也是前所未有的。這些對於大資料時代到來的讚美之詞,在追捧大資料的人群中可以說是聲音此起彼伏,溢於言表。但是根據我身臨其境的觀察發現人群中的聲音有不乏少數的嘈雜與偏頗,所以想寫一篇文章來表述自己的理解以及和網友前輩們進行相關的交流。

維克托前輩在《大資料時代》中提出了大資料所具有的三個特點:

以下分別簡述我對其的理解。

一、資料要全體不是樣本

大資料的大是指所研究的資料集是資料的全體,而非隨機取樣得到的樣本。可是大部分人會慣性地認為大資料的大就是比現有的資料更多更大的乙個絕對量,而不會有資料全體的概念,也就是說如果我們研究的資料全體只有mb的數量級,那麼我們的研究也是大資料範疇。這一慣性的認為始於以前小資料時代的取樣統計學分析的延續,彼時的統計學家們證明出:取樣分析的精確性隨著取樣隨機性的增加而大幅度提高。但與樣本數量的增加關係不大,也就是當樣本的數量達到某個值之後,從新個體身上得到的資訊會越來越少。這一特性彌補了我們當時無法獲取和處理更多資料的缺陷,但是在我們的心底,對於獲得更多更精確資料的願望是不曾黯淡過的。

歷史不足一百年的統計抽樣分析被習慣看作是文明得以建立的基石之一,就像幾何學定理和萬有引力定律一樣。但是這無法掩蓋它因時代技術落後無法採集、儲存、處理、分析總體資料,而採取以小見大這種捷徑所造成的固有缺陷:1、由於隨機性無法真正做到,對於問題的子類別情況的考察就很困難;2、無法發現取樣過程中所缺失掉部分的資訊。

大資料的這一特性所告訴我們的就是要關注全體資料,我們不能滿足於正態分佈一般中庸平凡的現象,生活中真正經常隱匿在細節之中,而取樣分析法卻無法捕捉到這些細節。

二、接受混雜的資料

當我們的視野從樣本擴大到總體的時候,所涉及的資料必然或多或少的加入一些在原來的標準看來是錯誤的資料。對於這一點我想說明的是,錯誤的存在像任何事物一樣必然有其存在的理由,極度地追求精確性無異於對真理的刻意逃避。這個理由對於大資料來說應該包含兩點:資料的廣泛性和取樣的高頻性。對於資料的廣泛性,開爾文說過「測量就是認知」,認知就是從不懂到懂的過程,這個過程應當是連續的而非跳躍。約束的條件越多越細越好理解,但隨著認知的加深,我們會去除或修改一些約束條件,使得問題所包含的可能性更加廣泛,不可避免會出現一些相背於之前約束的現象存在,也就是混在。對於取樣的高頻特性,其會彌補之前間隙性少量資料所丟失的某些未知資訊。概括一句話就是:大道不分好壞,存在皆有理由。

大資料基礎上的簡單演算法比小資料基礎上的複雜演算法更加有效

三、相關關係超越因果關係

以往難於通過因果關係去推斷的許多事情,都可以通過去尋找相關性來進行**。

但是追求確切因果性的行為不會消失,大資料的**會作為這種行為的指路燈來看待,因為對待問題的因果思路所建立的假設會容易因偏見而產生錯誤,如果通過相關關係建立的因果命題卻可以作為實證主義的**方向。這或許會成為一種社會科技進步的模式,兩種關係兩相補充相互促進。

據此也會產生一些困惑,相關關係對因果關係是有幫助,但在科技發展速度如此之快的今天,我們知道了「是什麼」後,「為什麼」還很重要麼?這所引起的時代過渡會不會造成乙個理論的斷層,進而使得人們拋棄理論的重要性?

我覺得第三點提出的疑問是否定的,因為對研究結果的解讀需要使用理論的支援。

資料分析 三個特點

一.業務理解 能跑數,不叫資料分析,和業務結合並產生價值才是資料分析 怎樣去對業務了解 1.對進入的行業和產品感興趣,有好奇心,願意學習一切未知的知識 2.能夠把業務和資料結合起來,嘗試用資料量化業務狀態和結果,能夠用資料解釋潛藏的未被發現的業務邏輯 3.當分析需求來的時候,要問下為什麼要做這個分析...

大資料的特點(三)

在上面一篇文章中我們給大家介紹了大資料的特點,也就是大資料的類別大以及類別多,同時大資料的處理速度是非常快的,而大資料的第四個特點就是資料價值的真實性高且密度低。我們就給大家介紹一下這些內容,同時也給大家介紹一下結構化的大資料。希望這篇文章能夠更好的幫助大家理解大資料。其實現階段的大資料報括三種資料...

三基工作的三個特點

這次集團公司領導幹部會,對新時期新階段三基工作基本內涵做了重新詮釋。主要有以下三個特點 內容更加寬泛豐富。對比老 三基 新 三基 把 基層建設 界定為以黨建 班子建設為主要內容的基層組織和隊伍建設,使基層建設不僅僅停留在黨支部層面 把 基礎工作 界定為以質量 計量 標準化 制度 流程等為主要內容的基...