Hadoop學習筆記001

2021-09-25 05:12:17 字數 1407 閱讀 8870

hadoop是乙個開源框架,它允許在整個集群使用簡單程式設計模型計算機的分布式環境儲存並處理大資料。他的目的是從單一的伺服器到上千臺機器的擴充套件,每乙個台機都可以提供本地計算和儲存。

「90%的世界資料在過去的幾年中產生」。

由於新技術,裝置和類似的社交**通訊裝置的出現,人類產生的資料量每年都在迅速增長。美國從一開始的時候到2023年產生的資料量為5十千億兆位元組。如果以堆放的資料磁碟的形式,它可以填補整個足球場。再2023年建立相同資料量只需要兩天,在2023年該速率仍在每十分鐘極大地增長。雖然產生的所有這些資訊十有意義的,處理起來有用的,但是它被戶略了。

什麼是大資料?

大資料是不能用傳統的計算技術處理的大型資料集的集合。它不是乙個單一的技術或工具,而是涉及的業務和技術的許多領域。

在大資料會發生什麼?

大資料報括通過不同的裝置和應用程式所產生的資料。下面給出的是一些在資料的框架下的領域。

因此,大資料報括體積龐大,高流速和可擴充套件的各種資料。它的資料為三種型別。

大資料的好處

大資料技術

大資料的技術是在提供更準確的分析,這可能影響更多的具體決策導致更大的執行效率,降低成本,並減少了對業務的風險。

為了利用大資料的力量,需要管理和處理的實時結構化和非結構化的海量資料,可以保護資料隱私和安全的基礎設施。

目前在市場上的各種技術,從不同的**商,包括亞馬遜,ibm,微軟等來處理大資料。儘管找到了處理大資料的技術,我們研究了以下兩類技術。

操作大資料

這些包括mongodb系統,提供業務實時的能力,這裡主要是資料捕獲和儲存互動工作。

nosql大資料系統的設計充分利用已經出現在過去的十年,而讓大量的計算,以廉價,高效地執行新的雲計算架構地優勢。這使得運營大資料工作負載更容易管理,更便宜,更快的實現。

一些nosql系統可以提供深入了解基於使用最少的編碼無需資料科學家和額外的基礎架構的實時資料模式。

分析大資料

這些包括,如大規模並行處理(mpp)資料庫系統和mapreduce提供用於回顧性和複雜的分析,可能觸及大部分或全部資料的分析能力的系統。

mapreduce提供分析資料的基礎上,mapreduce可以按比例增加從單個伺服器向成千上萬的高階和低端機的互補sql提供的功能,這是系統的一種新方法。

這兩個類技術是互補的,並經常一起部署。

操作與分析系統

大資料的挑戰為了實現上述挑戰,企業通常需要企業級伺服器的幫助。

學習筆記 001

mingw的全稱是 minimalist gnu on windows,本質是乙個開源的 c語言 編譯器。mingw其實是將gcc linux平台上的乙個經典c語言編譯器 移植到windows系統所產生的。而平時使用的dev cpp其實就是以mingw為編譯器的一類整合開發環境。main 作為c語言...

oracle學習筆記001

了解dab的工作職責,了解dab所掌握的知識,制定學習計畫 通過查閱一些 大體了解了一下學習oracle的一些心得,今天總結一下怎麼學習oracle 1 首先要了解oracle的體系結構,以及oracle的安裝 物理劃分 邏輯劃分 後台程序 5天 2 掌握基本的sql 序列 儲存過程 觸發器 檢視 ...

Hive學習筆記001

hive的應用場景 主要是解決了,如果使用多個map和reduce進行資料處理,每次都需要修改程式,有些改動非常少,這樣不利於開發效率 hive的出現主要是解決了因為小的需求變更而,頻繁的需要修改hadoop程式,提供了類似sql的hiveql。hive類似乙個中間轉換器 編譯器的作用 將hadoo...