大資料工具Hadoop快速入門13大資料測試

2022-06-10 12:00:15 字數 1618 閱讀 6292

大資料是不能使用傳統計算技術處理的大型資料集的集合。這些資料集的測試涉及各種工具,技術和框架。大資料涉及資料建立,儲存,檢索和分析,數量,多樣性和速度都要求非常高。

更多的是驗證其資料處理而不是單個功能,效能和功能測試*是關鍵都很重要。

使用集群和其他支援元件來驗證tb級資料的處理。它需要高水平的測試技能,因為處理非常快。處理有三種型別

資料質量也是大資料測試的重要因素,檢查資料的質量是重要環節,需要檢查一致性、有效性,重複,完整性等。

資料分段驗證

也稱為pre-hadoop階段,涉及處理驗證。

像工具talend,datameer,可用於資料分段的驗證

mapreduce驗證

驗證每個節點上的業務邏輯驗證,然後在多個節點執行後驗證它們,確保

輸出驗證階段

生成輸出資料檔案,並準備根據需要將其移至edw(企業資料倉儲)或其他系統。

hadoop處理非常大量的資料,資源密集。架構測試對於確保大資料專案的成功至關重要。系統設計不當會導致效能下降,系統可能無法滿足要求。至少,需要測試效能和failover 。

效能測試包括測試作業完成時間,記憶體利用率,資料吞吐量和類似的系統指標。failover 測試驗證資料處理在節點故障的情況下無縫轉移。

大資料的效能測試包括兩個主要方面:

效能測試方法

大資料應用程式的效能測試涉及大量結構化和非結構化資料的測試,它需要特別的測試方法。

效能測試的方式

效能測試的引數屬性

傳統資料庫測試

大資料測試

資料

使用結構化資料

同時處理結構化資料和非結構化資料

測試方法定義明確且成熟

探索中手工抽樣或自動化完全驗證

抽樣的挑戰很大

基礎設施

需要特殊的測試環境,因為檔案大小有限

需要特殊的測試環境,因為大的資料和檔案(hdfs)

驗證工具

excel的巨集、基於ui的自動化工具、python等

從mapreduce到hiveql

容易上手

較有技術難度。

大資料集群

大資料工具

nosql

couchdb,mongodb,cassandra,redis,zookeeper,hbase

mapreduce

hadoop,hive,pig,cascading,oozie,kafka,s4,mapr,flume

儲存s3,hdfs(hadoop分布式檔案系統)

伺服器處理

r,yahoo!pipes,mechanical turk,bigsheets,datameer

效能測試的挑戰

大資料入門Hadoop安裝

偽分布式 就是所有的程式都在一台主機上跑,完全是分布式的工作模式,但是不是真正的分布式 先上傳hadoop的安裝包到伺服器上去 home hadoop 注意 hadoop2.x的配置檔案 hadoop home etc hadoop 偽分布式需要修改5個配置檔案 3.1配置hadoop hdfs w...

快速入門大資料

本人30歲,從學大資料到現在有6年的時間,我談一下我的經驗分享 我自己的經歷 剛開始大資料是看書,一頁頁的看書,因為身邊有乙個好的資源,有問題可以問我朋友,後來發現看大資料的零基礎書籍很難看下去,很多專業的東西對於乙個新手根本就看不懂,沒有什麼效率。在這裡我個人建議,初學不要看書,我的建議是學完一部...

hadoop快速入門

大資料核心含義是一種技術革新 隨著網際網路時代的深入,產生了越來越多的資料,比如 1 電商產生的大量使用者瀏覽 購物行為 2 移動運營商記錄了大量的使用者上網行為 3 網路輿情分析 營銷支撐 4 金融系統徵信分析 上述的這些需求,用以前的傳統技術無法勝任,需要有乙個全新的技術體系來支撐 在此背景之下...