大資料初識筆記

2022-07-30 16:57:10 字數 948 閱讀 2174

大資料技術框架主要包含6個部分,分別是資料收集、資料儲存、資源管理、計算框架、資料分析和資料展示,每部分包括的具體技術如圖1.1所示。

大資料的特點可以用「4v」來表示,分別為volume、variety、velocity和value,下面具體介紹。

·海量性(volume):大資料的資料量很大,每天我們的行為都會產生大批量資料。

·高速性(velocity):大資料要求處理速度快,比如**「雙十一」需要實時顯示交易資料。·

價值性(value):大資料產生的價值密度低,意思是說大部分資料沒有參考意義,少部分資料會形成**值,比如私家汽車安裝的攝像頭,大部分情況下是用不到的,但是一旦出現「碰瓷」等現象就會很有價值。

大資料的本質是發現資料規律,實現商業價值。在生活中有很多大資料應用的場景,包括金融、經濟、醫療和體育行業等。例如在金融行業中,支付寶平台通過大資料進行消費者信用評分,金融機構利用大資料進行金融產品的精準營銷。在醫療行業中通過分析病人特徵和療效資料,找到特定病人的最佳**方案;還可以在病人檔案方面應用高階分析,確定某類疾病的易感人群。在體育行業中可以通過分析資料來制定戰術、進行運動員能力評估,定製最佳訓練方案。

常見的大資料計算模式分為4類,如圖1.2所示。

·批處理計算又稱為離線計算,是針對大規模歷史資料的批量處理,如mapreduce。·

·圖計算是針對大規模圖結構資料的處理,常用於社交網路,如pregel、graphx、giraph(facebook)、powergraph和hama等。

·查詢分析計算是針對大規模資料的儲存管理和查詢分析,如hive、cassandra和impala等。

初識大資料

大資料 big data 是指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。大資料指的是不用傳統的抽樣調查這樣的捷徑,而採用所有資料進行分析處理 volume 大量 資料的大小決定所...

初識大資料

大資料是指對巨量不同種類資料 可達pb級別數量 進行智慧型的收集 儲存 挖掘分析,面向具體的行業應用,把大量離散的價值密度低的資料加工形成具有高商業價值的資料處理技術,以幫助企業機構更準確地做出趨勢判斷 進行精確營銷和實現精細化運營等。5g的通訊即將來到,資料 式增長,以及資料處理的實時性要求越來越...

初識大資料入門

大資料平台從平台部署和資料分析過程分以下幾步 一 linux系統安裝 一般使用開源版的redhat系統 centos作為底層平台。為了提供穩定的硬體基礎,在給硬碟做raid和掛載資料儲存節點的時,需要按情況配置。例如,可以選擇給hdfs的namenode做raid2以提高其穩定性,將資料儲存與作業系...