大資料概述

2021-10-01 05:51:37 字數 2473 閱讀 9608

大資料

大資料(big data),it行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

所謂「面向集合」(collection-oriented),意思是資料被分組儲存在資料集中,被稱為乙個集合(collection)。每個集合在資料庫中都有乙個唯一的標識名,並且可以包含無限數目的文件。集合的概念類似關係型資料庫(rdbms)裡的表(table),不同的是它不需要定義任何模式(schema)。nytro megaraid技術中的快閃儲存器快取記憶體演算法,能夠快速識別資料庫內大資料集中的熱資料,提供一致的效能改進。

模式自由(schema-free),意味著對於儲存在mongodb資料庫中的檔案,我們不需要知道它的任何結構定義。如果需要的話,你完全可以把不同結構的檔案儲存在同乙個資料庫裡。

儲存在集合中的文件,被儲存為鍵-值對的形式。鍵用於唯一標識乙個文件,為字串型別,而值則可以是各種複雜的檔案型別。我們稱這種儲存形式為bson(binary serialized document format)。

mongodb

mongodb適用於:

適合實時的插入,更新與查詢

適合由數十或數百台伺服器組成的資料庫

**資料

適合作為資訊基礎設施的快取層

大尺寸,低價值的資料

用於物件及json資料的儲存

不適用於:1)高度事務性的系統;2)傳統的商業智慧型應用;3)極為複雜的sql查詢;4)高度事務性的系統:例如銀行或會計系統。傳統的關係型資料庫目前還是更適用於需要大量原子性複雜事務的應用程式;5)傳統的商業智慧型應用:針對特定問題的bi資料庫會對產生高度優化的查詢方式。

bsp

bsp(bulk synchronous parallel)模型,由哈佛大學viliant和牛津大學bill mccoll提出,希望像馮·諾伊曼體系結構那樣,架起計算機程式語言和體系結構間的橋梁,故又稱作橋模型(bridge model)。本質上,bsp模型是分布儲存的mimd計算模型,被認為是最有前途的平行計算模型。

乙個bsp計算機由n個處理機/儲存器組成,通過通訊網路進行互聯,。一台bsp並行計算機包含三個部分組成:

平行計算模組

通訊模組

路障同步模組

logp

logp模型是一種分布儲存的、點到點通訊的多處理機模型,其中通訊網路由4個主要引數來描述:

l(latency) 表示源處理機與目的處理機進行訊息(乙個或幾個字)通訊所需要的等待或延遲時間的上限,表示網路中訊息的延遲。

o(overhead)表示處理機準備傳送或接收每個訊息的時間開銷(包括作業系統核心開銷和網路軟體開銷),在這段時間裡處理不能執行其它操作。

g(gap)表示一台處理機連續兩次傳送或接收訊息時的最小時間間隔,其倒數即微處理機的通訊頻寬

p(processor)處理機/儲存器模組個數。

logp模型假定乙個週期完成一次區域性操作,並定義為乙個時間單位,那麼,l,o和g都可以表示成處理器週期的整數倍。

logp模型的主要特點有:

1)抓住了網路與處理機之間的效能瓶頸。

2)處理機之間非同步工作,並通過處理機間的訊息傳送來完成同步

3)對多執行緒技術有一定反映

4)訊息延遲不確定,但延遲不大於l

5)logp模型鼓勵程式設計人員採用一些好的策略

6)可以預估演算法的實際執行時間。

logp模型的不足之處有:

1)對網路中的通訊模式描述的不夠深入。

2)簡單地認為遠地讀操作相當於兩次訊息傳遞,未考慮流水線預取技術、cache引起的資料不一致性以及cache命中率對計算的影響。

3)未考慮多執行緒技術的上下文開銷。

4)logp模型假設用點對點訊息路由器進行通訊,這增加了程式設計者考慮路由器上相關通訊操作的負擔。

mapreduce

軟體實現。

mapreduce是一種程式設計模型,用於大規模資料集(大於1tb)的並行運算。概念"map(對映)「和"reduce(歸約)」,是它們的主要思想,都是從函式式程式語言裡借來的,還有從向量程式語言裡借來的特性。它極大地方便了程式設計人員在不會分布式並行程式設計的情況下,將自己的程式執行在分布式系統上。 當前的軟體實現是指定乙個map(對映)函式,用來把一組鍵值對對映成一組新的鍵值對,指定併發的reduce(歸約)函式,用來保證所有對映的鍵值對中的每乙個共享相同的鍵組。

spark

spark 是一種與 hadoop 相似的而又強於hadoop的開源集群計算環境,由加州大學伯克利分校 amp 實驗室開發。spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

spark 是在 scala 語言中實現的,它將 scala 用作其應用程式框架。與 hadoop 不同,spark 和 scala 能夠緊密整合,其中的 scala 可以像操作本地集合物件一樣輕鬆地操作分布式資料集。

大資料概述

1.試述大資料對思維方式的重要影響。全樣而非抽象 過去,由於資料儲存和處理能力的限制,在科學分析中,通常採用抽樣的方法,即從全集資料中抽取一部分樣本資料,再通過樣本資料的分析來推斷出全集資料的特徵。如今,有了大資料的支援,科學分析完全可以直接針對全集資料而不是抽樣資料,並且可以在短時間內迅速得到分析...

大資料概述

1.試述大資料對思維方式的重要影響。隨著科技的發展和人們對資料的需求日益增大,大資料時代正步入網際網路世界的主流道路上。以往網際網路資料或個人資料,或多或少存在著侷限性,資料潛在的價值並沒有被很好的利用。大資料技術收集了專案的大量相關資料,加以分析,得到許多內在問題或找到最優的解決方案,提公升了資料...

大資料概述

1.試述大資料對思維方式的重要影響。當今,網際網路飛快發展,我們也已步入了資訊化社會。資訊並不匱乏,匱乏的是我們處理資訊的能力,我們有限的注意力是組織活動的主要瓶頸。通過大資料來輔助決策,人類理性的範圍將會擴大,決策的質量就能提高。如果將傳統的思維模式 精確性運用於資料化 網路化的21世紀,就會錯過...