大資料學習筆記 1 1 了解大資料

2021-09-05 10:21:56 字數 1954 閱讀 8280

(三) bigtable:大表 --> nosql資料庫:hbase

首先引入兩個個大資料應用場景

從以上兩個例子可以引出大資料的兩個核心問題

資料的儲存

分布式的檔案系統:hdfs(hadoop distributed file system)

資料的計算

資料的計算(不是演算法)------:分布式的計算:mapreduce、spark(rdd:彈性分布式資料集)

傳統方式:搭建資料倉儲(data warehouse)來解決大資料的問題

資料倉儲就是乙個資料庫(oracle、mysql、sqlserver)

傳統的資料倉儲一般只做查詢 select

大資料也是一般只做查詢(分析)

搭建資料倉儲的過程:hadoop、spark中的一些元件

oltp:online transaction processing 聯機事務處理

指:(insert、update、delete)—> 事務 傳統的關係型資料庫解決的問題

olap:online analytic processing 聯機分析處理

一般只做查詢select(分析)

資料倉儲就是一種olap的應用系統

hadoop、spark看成是一種資料倉儲的解決方案

1.分布式檔案系統

分布式檔案系統解決的問題:

問題1儲存硬碟不夠大

問題2單一的硬碟儲存不夠安全

在google的gfs這篇**中提出通過資料冗餘的方案來解決單一硬碟儲存數資料不安全的問題,通過擴充套件硬碟集群來解決磁碟儲存問題,在理論上分布式檔案儲存系統的儲存能力是可以無限擴充套件的。

對於hdfs來說有乙個預設的資料塊冗餘度,它的資料冗餘度預設是 3,代表同乙個資料塊會儲存3份

hdfs 還有乙個資料塊的概念

在 1.x 中預設是64m

在 2.x 以上版本中預設是128m

在客戶上傳的過程中第乙份資料通過客戶上傳來實現,通過水平複製來達到資料冗餘的要求。

2 機架感知

機架感知基本思想

3.倒排索引 (reverted index)

什麼是索引 (關係型資料庫)

索引的本事就是乙個目錄,通過目錄找到資料從而提高查詢效率

通過索引可以找到對應的資料

索引不一定可以提高查詢效率

什麼是倒排索引

以如下文字資料為例:

i love beijing

i love china

beijing is the capital of china

我們有這樣乙個簡單的需求,需要把上面的資料按單詞儲存下來,並且知道每個單詞存在於那句話內

實際上分析需求我們需要做的就是記錄每個單詞的位置資訊,這個位置資訊在hdfs中就稱為倒排索引,下面我們來建立這個最簡單的倒排索引。

以上就是我們通過分詞來生成的乙個簡單的倒排索引,我們可以通過去重和排序來得到乙個更好的倒排索引

通過這個優化後的倒排索引,我們就可以更效率的獲取單詞的位置資訊

未完 by sure

了解大資料

英雄聯盟 還致力於推動全球電子競技的發展,除了聯動各賽區發展職業聯賽 打造電競體系之外,每年還會舉辦 季中冠軍賽 全球總決賽 all star全明星賽 三大世界級賽事,獲得了億萬玩家的喜愛,形成了自己獨有的電子競技文化。在2011年剛出來人時候,引發一度熱潮,隨著玩家人數數量趨於平穩後,搜尋指數徘徊...

了解大資料

大資料時代下網路安全的現狀 現如今,當前經濟逐漸的趨向於經濟多元化的發展,同時基於大資料背影下的資訊保安面臨著越來越多的挑戰,當前的網路安全逐漸成為人們關注的焦點,因此我們有必要對大時代下網路安全問題提高重視度,並做好相關的安全防範。因此本文對基於大資料時代下網路安全問題進行研究有一定的重要意義。隨...

大資料學習筆記

大資料處理是雲計算中非常重要的領域,自google公司提出mapreduce分布式處理框架以來,以hadoop為代表的開源軟體受到越來越多公司的重視和青睞。本文將講述hadoop系統中的乙個新成員 impala。impala架構分析 impala是cloudera公司主導開發的新型查詢系統,它提供s...