大資料測試小結

2021-08-13 15:13:58 字數 1536 閱讀 7471

1.etl測試

etl, extract-transform-load 的縮寫,將資料從**端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程.

etl工具較多,用過的是informatica.它從目標表抽取資料載入到結果表 hive<-->資料庫.

測試思路:

a.測試抽取的符合條件的資料總量;

b.報表字段型別轉換測試;

c.報表字段特殊值測試(空,null,複合型字元);

d.根據sql過濾條件進行造數測試;

e.根據業務場景進行造數測試;

f.開發建立的報表/報表欄位和測試報表進行對比測試;

g.開發條件過濾sql初步遍歷看有無明顯語法錯誤測試;

h.報表拉數耗費時間測試;

j.報表大批量資料拉取效能測試.

用過informatica的同學都知道它有四個介面段,基於開發寫的sql,報表字段,資料庫連線串,errorlog都能從裡面獲取到資訊,建議當工具拉數報錯時,自己能更改的錯誤自己就直接改了(當然事後別忘記告訴開發更新)。

2.linux環境的shell指令碼測試.

一般shell指令碼都是基本 資料庫-->hive-->資料庫的過程,也就是 hive的乙個import 和 export的過程,需要涉及的知識面:基本的linux命令,shell指令碼命令,hivesql,hdfs命令.

因為shell指令碼測試有些時候是基於需要直接更改報表在hdfs路徑下的資料檔案,本人是建議測試完全掌握這一塊的,畢竟公司部門的shell指令碼一般都是有乙個統一格式的.

測試思路:

1.遍歷shell指令碼檢視開發輸出的指令碼是否正確(命名規範,指令碼內容,呼叫函式,日誌列印,異常檢查機制);

2.遍歷oracle/mysql/hive等建表語句(包含報表名稱,報表字段,報表hdfs路徑,索引建立,分割槽建立);

3.import/export報表資料總量;

4.import/export報表資料的指令碼執行時間;

5.資料庫--hive 的資料型別轉換;

6.歷史資料包表的歷史資料量;

7.一些簡單的sql語句優化..

hive報表主要涉及的都是一些資料傳輸過程,然後在hive裡面使用sql進行一些邏輯計算,最後得出結果再把資料傳輸出去,所以主要關注點都在hive這一塊。

3.kafka/scala

這個是目前正在做的專案,涉及到的kafka以及scala語言均需要補充新知識,scala語言相對好一點,是類似sql的一種寫法,主要是在kafka中進行計算然後進行乙個介面資料傳輸,從測試角度來看,涉及到:需求確定的邏輯計算方式 ,需求確定的各欄位名稱,需求確定的取數範圍(標識,時間,狀態),考慮報表歷史資料量大小對效能的影響,基於伺服器大小對各報表歷史資料儲存時間的確定,json串資料傳輸.

效能方面,個人感覺伺服器大小配置會很大程度上影響到資料的傳輸速度,資料的處理速度,也就是說,客戶看到需要的資料的時間會根據伺服器的配置來進行延長或縮短,而作為測試,目前一直思考的也是這塊的,如何在排除伺服器配置的情況下,能更好的測試處**計算的效能是一直在想的問題,因為這一塊也沒找到比較有用的對比資料以及參考指標.

大資料測試方法

一.功能性測試 大資料功能主要涉及系統實現面向大資料分析應用的posix api,包括檔案讀取與訪問控制,元資料操作,鎖操作等功能 大資料分析系統的posix語義不同,實現的檔案系統api也不同,功能測試要覆蓋到大資料系統涉及實現的api和功能點 功能測試工作量大,應該重點考慮應用自動化測試方法進行...

大資料測試大綱

收有測試方法,包括功能,效能,參見 1.大資料主要技術概述 特點,簡述 大資料的總體技術架構概述 大資料的儲存和處理技術概述 大資料的查詢與分析技術概述 銀行客戶大資料應用體系架構例項 2.大資料測試的要點與難點 大資料測試的特點 基本測試 分布式測試 高可用測試 擴充套件性測試 效能測試 大資料測...

大資料測試環境搭建

hadoop集群搭建 整理的很好 具體到我用的版本 2.4.1 遇到的一些問題 1.jdk版本問題 2.環境變數配置問題 3.hadoop配置 core site.xml,hdfs site.xml等 4.資料夾許可權問題,非root使用者必須具有hadoop相關資料夾及其子資料夾的寫許可權 5.d...