大資料開發

2021-10-06 07:52:26 字數 393 閱讀 7976

職業要求:

大資料概述

大資料處理架構hadoop

分布式檔案系統hdfs

分布式資料庫hbase

nosql資料庫

雲資料庫

mapreduce

基於hadoop的資料倉儲hive

hadoop架構再**

spark

流計算圖計算

大資料在不同領域的應用

666666

大資料技術概述

spark的設計與執行原理

spark環境搭建和使用方法

rdd程式設計基礎

spark sql

spark streaming

structured streaming

spark mllib

大資料應用開發 大資料的概念

維基百科定義 大資料是指利用常用軟體工具捕獲,管理和處理資料所耗時間超過可容忍時間的資料集。flume可以進行流式日誌資料的收集 sqoop可以互動關係型資料庫,進行匯入匯出資料 使用爬蟲技術,可以在網上爬取海量網頁資料 1.1 概念 離線批處理,是指對海量歷史資料進處理和分析,生成結果資料,供下一...

大資料開發之路 3

之前記錄了大資料開發環境的部署過程,下面就可以介紹大資料開發工具的一些工作機制和工作原理。今天首先介紹大資料開發中大家耳熟能詳的工具 hadoop。hadoop作為乙個最早開始流行的大資料開發工具,它能夠做些什麼呢?當然要看大資料開發需要幹什麼,簡單來講大資料主要做兩件事情,一是海量資料的儲存,二是...

大資料開發實戰 Stream SQL實時開發一

流計算sql通常是乙個類sql的宣告式語言,主要用於對流式資料 streams 的持續性查詢,目的是在常見流計算平台和框架 如storm spark streaming flink beam等 的底層api上,通過使用簡易通用的的sql語言構建sql抽象層,降低實時開發的門檻。流計算sql的原理其實...