大資料需要知道，Hadoop是什麼！

隨著近幾年計算機技術和網際網路的發展，「大資料」這個名詞越來越多進入我們的視野。大資料的快速發展也在無時無刻影響著我們的生活。

那大資料究竟是什麼呢？

首先，看看專家是怎麼解釋大資料的：

大資料就是多，就是多。原來的裝置存不下、算不動。 ——啪菠蘿·畢卡索

大資料，不是隨機樣本，而是所有資料；不是精確性，而是混雜性；不是因果關係，而是相關關係。—— schnberger

顧名思義「大資料」，從字面意思來理解就是「大量的資料」。

從技術的的角度來解釋，大資料就是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

ibm提出大資料具有5v特點：volume（大量）、velocity（高速）、variety（多樣）、value（低價值密度）、veracity（真實性）。

那hadoop又是什麼？它和大資料又有什麼聯絡呢？

hadoop是乙個對海量資料進行處理的分布式系統架構，可以理解為hadoop就是乙個對大量的資料進行分析的工具，和其他元件搭配使用，來完成對大量資料的收集、儲存和計算。

hadoop框架最核心的設計就是：hdfs 和 mapreduce。

hdfs為海量的資料提供了儲存

mapreduce為海量的資料提供了計算

一套完整的hadoop大資料生態系統基本包含這些元件。

hdfs：hadoop分布式檔案系統，專門儲存超大資料檔案，為整個hadoop生態圈提供了基礎的儲存服務。

mapreduce：分布式離線計算框架，用來處理大量的已經儲存在本地的離線資料。

storm：分布式實時計算，主要特點是實時性，用來處理實時產生的資料。

zookeeper：用於hadoop的分布式協調服務。hadoop的許多元件依賴於zookeeper，它執行在計算機集群上面，用於管理hadoop操作。

hbase：是乙個建立在hdfs之上，面向列的nosql資料庫，用於快速讀/寫大量資料。

hive：基於hadoop的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表。

sqoop：是乙個連線工具，用於在關聯式資料庫、資料倉儲和hadoop之間轉移資料。

pig：它是mapreduce程式設計的複雜性的抽象。pig平台包括執行環境和用於分析hadoop資料集的指令碼語言(pig latin)。

**網路

結構分析

大資料開發你需要知道的十個技術

當你不創造東西時，你只會根據自己的感覺而不是能力去看待問題。whytheluckystiff 彙總一些自己在大資料路上走過的彎路，願大家不再掉坑 1.分布式儲存傳統化集中式儲存存在已有一段時間。但大資料並非真的適合集中式儲存架構。hadoop設計用於將計算更接近資料節點，同時採用了hdfs檔案系統...

hadoop2 x需要知道的預設yarn配置

在hadoop 2.2.0中，yarn框架有很多預設的引數值，如果你是在機器資源比較不足的情況下，需要修改這些預設值，來滿足一些任務需要。nodemanager和resourcemanager都是在yarn site.xml檔案中配置的，而執行mapreduce任務時，是在mapred site.x...

關於資料治理，你需要知道些什麼？

每個有效的資料庫都需要精心設計的模式 schema 以保持資料乾淨，避免衝突，滿足使用者的各種需求，適應未來的擴充套件。同樣，每個有效的企業資料計畫都離不開資料治理，也就是精心設計的政策，以明確職責解決不同利益相關方之間的衝突，提供維護和擴充套件，保護敏感資訊。資料治理的關注點通常包括資料管理方...

大資料需要知道，Hadoop是什麼！

大資料開發你需要知道的十個技術

hadoop2 x需要知道的預設yarn配置

關於資料治理，你需要知道些什麼？

相關推薦