分布式雲計算大資料第八章

2021-10-01 05:59:51 字數 3535 閱讀 9537

2023年,google高階工程師克里斯多福·比希利亞提出雲計算想法,雲計算是分布式計算、效應計算、虛擬化技術、web服務,網格計算等技術的融合與發展,他的目標是使用者通過網路能夠在認識時間、任何地點最大限度的使用虛擬資源池,處理大規模計算問題。

定義是分布式處理、並行處理和網格計算的發展,或者說是這些電腦科學概念的商業實現。是指基於網際網路的超級計算模式–即把原本儲存於個人電腦、移動裝置等個人裝置上的大量資訊集中在一起,在強大的伺服器端協同工作。它是一種新興的共享計算資源的方法,能夠將巨大的系統連線在一起,以提供各種計算服務。

是一種利用網際網路實現隨時隨地,按需,便捷的訪問共享資源池的計算模式。

5個基本特徵:按需自助服務;廣泛的網路訪問;共享的資源池;快速彈性能力;可度量的服務。

3中服務模式:軟體即服務(saas);平台即服務(paas);基礎設施即服務(iaas)

4種部署方式:私有雲;社群雲;公有雲;混合雲;

1、體系結構

1).核心服務層

3個子層:iaas、paas、saas
iaas

iaas是雲計算的基礎,為上層雲計算提供必要的硬體資源,根據硬體需要,建立虛擬的計算、儲存中心,使得其能夠把計算單元、儲存器、i/o裝置、頻寬等計算機基礎設施,集中起來成為乙個虛擬的資源池來對外提供服務,虛擬化技術是iaas的關鍵技術

虛擬化是將底層物理裝置與上層作業系統、軟體分離的一種去耦合技術,其是基於開放的x86架構,將硬體、作業系統和應用程式一同裝入乙個可遷移的虛擬機器檔案檔案中,虛擬化的目標是實現it資源利用效率和靈活性的最大化,虛擬化技術在x86架構上比較通用,在risc架構下比較封閉。

典型應用:

彈性計算雲ec2 (elastic compute cloud) ——計算

簡單儲存服務s3 (****** storage service) —— 儲存

把伺服器平台或開發環境作為一種服務提供,計算資源平台做為一種服務提供給使用者,可支援使用者自有的工具與開發環境部署,客戶通過可呼叫的介面撥接資源平台。

saas是一種基於網際網路提供軟體服務的應用模式,以軟體租賃的形式提供給使用者,使用者不需安裝應用軟體,開啟瀏覽器即可執行,也不需要額外的伺服器硬體,按照使用者的需求定製軟體。

saas部署在paas和iaas上,使用者可在paas平台上開發並部署saas服務,更賤方便使用者的使用。

典型應用:google、salesforce等等。
2).服務管理層服務管理層為核心服務層的可用性、可靠性和安全性提供保障,包括服務質量保證和安全管理等。

3).使用者訪問介面層

使用者在雲計算的訪問均在使用者訪問介面層實現。

2、關鍵技術

1).非關係型資料庫(nosql)

nosql僅僅是乙個概念,泛指非關係型的資料庫,區別於關聯式資料庫,它們不保證關係資料的acid特性。非關係型資料庫與以下分類:

鍵值(key-value)儲存資料庫

這一類資料庫主要會使用到乙個雜湊表,這個表中有乙個特定的鍵和乙個指標指向特定的資料。

列儲存資料庫

這部分資料庫通常是用來應對分布式儲存的海量資料。

文件型資料庫

文件型資料庫的靈感是來自於lotus notes辦公軟體的,而且它同第一種鍵值儲存相類似。

圖形(graph)資料庫

圖形結構的資料庫同其他行列以及剛性結構的sql資料庫不同,它是使用靈活的圖形模型,並且能夠擴充套件到多個伺服器上。

2).分布式檔案系統

分布式檔案系統可以有效解決資料的儲存和管理難題:將固定於某個地點的某個檔案系統,擴充套件到任意多個地點/多個檔案系統,眾多的節點組成乙個檔案系統網路。每個節點可以分布在不同的地點,通過網路進行節點間的通訊和資料傳輸。人們在使用分布式檔案系統時,無需關心資料是儲存在哪個節點上、或者是從哪個節點從獲取的,只需要像使用本地檔案系統一樣管理和儲存檔案系統中的資料。

3).計算模型

雲計算的計算模型是一種可程式設計的平行計算架構。例如google提出的mapreduce模型,它是一種高擴充套件性和容錯性的模型,執行於gfs 之上。它的設計思想在於將問題分而治之,首先將使用者的原始資料源進行分塊,然後分別交給不同的map任務去處理。

3).虛擬化

把有限的固定的資源根據不同需求進行重新規劃以達到最大利用率的思路,在it領域就叫做虛擬化技術。

虛擬化技術的特點是資源共享、資源定製、細粒度資源管理。

gfsgfs也就是 google file system,是google公司為了儲存海量搜尋資料而設計的專用檔案系統。它是乙個可擴充套件的分布式檔案系統,用於大型的、分布式的、對大量資料進行訪問的應用。執行於廉價的普通硬體上,並提供容錯功能。它可以給大量的使用者提供總體效能較高的服務。

mapreduce

mapreduce最早是由google公司研究提出的一種面向大規模資料處理的平行計算模型和方法。google公司設計mapreduce的初衷主要是為了解決其搜尋引擎中大規模網頁資料的並行化處理。google公司發明了mapreduce之後首先用其重新改寫了其搜尋引擎中的web文件索引處理系統。但由於mapreduce可以普遍應用於很多大規模資料的計算問題,因此自發明mapreduce以後,google公司內部進一步將其廣泛應用於很多大規模資料處理問題。到目前為止,google公司內有上萬個各種不同的演算法問題和程式都使用mapreduce進行處理。

mapreduce用在非常廣泛的應用程式中,包括「分布grep,分布排序,web連線圖反轉,每台機器的詞向量,web訪問日誌分析,反向索引構建,文件聚類,機器學習,基於統計的機器翻譯等等。

bigtable

bigtable是google設計的分布式資料儲存系統,用來處理海量的資料的一種非關係型的資料庫。bigtable是非關係型資料庫,是乙個稀疏的、分布式的、持久化儲存的多維度排序map。

bigtable已經在超過60個google的產品和專案上得到了應用,包括 google analytics、googlefinance、orkut、personalized search、writely和googleearth。

分布式計算 雲計算與大資料第八章

對一般使用者而言 雲計算是指通過網路以按需 易擴充套件的方式獲得所需的服務。即隨時隨地只要能上網就能使用各種各樣的服務,如同錢莊 銀行 發電廠等。這種服務可以是it和軟體 網際網路相關的,也可以是任意其他的服務。對專業人員而言 是分布式處理 並行處理和網格計算的發展,或者說是這些電腦科學概念的商業實...

雲計算與大資料 第八章

是分布式處理 並行處理和網格計算的發展,或者說是這些電腦科學概念的商業實現。是指基於網際網路的超級計算模式 即把原本儲存於個人電腦 移動裝置等個人裝置上的大量資訊集中在一起,在強大的伺服器端協同工作。它是一種新興的共享計算資源的方法,能夠將巨大的系統連線在一起,以提供各種計算服務。infrastru...

第八章 雲計算原理與技術

8.雲計算原理與技術 8.1雲計算概述 對一般使用者而言 雲計算是指通過網路以按需 易擴充套件的方式獲得所需的服務。即隨時隨地只要能上網就能使用各種各樣的服務,如同錢莊 銀行 發電廠等。這種服務可以是it和軟體 網際網路相關的,也可以是任意其他的服務。對專業人員而言 是分布式處理 並行處理和網格計算...