《大資料導論》 第1章理解大資料

2021-09-23 14:44:15 字數 1151 閱讀 2273

第1章

理解大資料

大資料是一門專注於對大量的、頻繁產生於不同資訊源的資料進行儲存、處理和分析的學科。當傳統的資料分析、處理和儲存技術手段無法滿足當前需求的時候,大資料的實踐解決方案就顯得尤為重要。具體地說,大資料能滿足許多不同的需求,例如,將多個沒有聯絡的資料集結合在一起,或是處理大量非結構化的資料,抑或是從時間敏感的行為中獲取隱藏的資訊等。

雖然大資料看起來像是一門新興的學科,卻已有多年的發展歷史。對大型資料集的管理與分析是乙個存在已久的問題—從利用勞動密集方法進行早期人口普查的工作,到計算保險收費背後的精算學科,都涉及這個方面的問題,大資料就由此發展起來。

作為對傳統的基於統計學分析方法的優化,大資料加入了更加新的技術,利用計算資源和方法的優勢來執行分析演算法。在當今資料集持續地擴大化、擴寬化、複雜化和資料流化的背景之下,這種優化十分重要。自《聖經》時代以來,統計學方法一直在告訴我們通過抽樣調查的手段能夠粗略地測量人口。但電腦科學目前的發展使我們完全有能力處理那樣龐大的資料集,因此抽樣調查的手法正在逐漸「失寵」。

對於大資料的資料集的分析是一項綜合數學、統計學、電腦科學等多項專業學科的跨學科工作。這種多學科、多觀點的混合,常常會使人對大資料及大資料分析這門學科所涵蓋的內容產生疑問,每個人都會有不同的見解。大資料問題所涵蓋的內容範圍也會隨著軟硬體技術的更新而變化。這是因為我們在定義大資料的時候考慮了資料特徵對於資料解決方案本身的影響。比如30年前,1gb的資料就稱得上是大資料,而且我們還會為這份資料專門申請計算資源,而如今,1gb的資料十分常見,面向消費者的裝置就能對其進行快速的儲存、轉移、複製或者其他處理。

大資料時代下的企業資料,常常通過各種應用、感測器以及外部資源聚集到企業的資料集中。這些資料經過大資料解決方案的處理後,能夠直接應用於企業,或者新增到資料倉儲中豐富現有的資料。這種大資料解決方案處理的結果,將會給我們帶來許多深層知識和益處,例如:

運營優化

可實踐的知識

新市場的發現

精確的**

故障和欺詐的檢測

詳細的資訊記錄

優化的決策

科學的新發現

顯然,大資料的應用面和潛在優勢十分廣闊。然而,在何時選用大資料分析手段的問題上,還有大量的問題需要考慮。當然,我們需要去理解這些存在的問題,並與大資料的優勢進行權衡,最終才能做出乙個合理的決策並提出合適的解決方案。這些內容我們將在第二部分單獨討論。

《大資料導論》 第2章採用大資料的商業動機與驅動

第2章 採用大資料的商業動機與驅動 在當今世界的許多組織中,業務可以像其所採用的技術那樣進行 架構 這種觀念上的轉變體現在當今企業架構領域的不斷擴大,即過去只與技術架構緊密結合,而現在卻也同樣包含業務架構。儘管如今人們還只是從乙個機械系統的視角來審視一批批的業務,即一條條指令由行政人員發布給主管,再...

《大資料導論》 導讀

譯者序致謝 作者簡介 第一部分 大資料基礎 第1章 理解大資料 1.1 概念與術語 1.2 大資料特徵 1.3 不同資料型別 1.4 案例學習背景 1.5 案例學習 第2章 採用大資料的商業動機與驅動 2.1 市場動態 2.2 業務架構 2.3 業務流程管理 2.4 資訊與通訊技術 2.5 萬物網際...

《大資料導論》導讀

目 錄 譯者序 致謝 作者簡介 第一部分 大資料基礎 第1章 理解大資料 1.1 概念與術語 1.1.1 資料集 1.1.2 資料分析 1.1.3 資料分析學 1.1.4 商務智慧型 1.1.5 關鍵績效指標 1.2 大資料特徵 1.2.1 容量 1.2.2 速率 1.2.3 多樣性 1.2.4 真...