初探大資料 開發環境介紹 實戰一

2021-08-15 22:48:38 字數 486 閱讀 9432

使用環境:

1、centos(6.4)

2、hadoop版本對比及選擇

生產較多的cdh版本(cdh5.7.0)

cdh-5.7.0   生產或者測試環境選擇對應cdh版本時,一定要採用尾號是一樣的版本

為什麼很多公司選擇hadoop作為大資料平台的解決方案?

1)原始碼開源

2)社群活躍、參與者很多  spark

3)涉及到分布式儲存和計算的方方面面:

flume進行資料採集

spark/mr/hive等進行資料處理

hdfs/hbase進行資料儲存

4) 已得到企業界的驗證

3、開發工具對比及選

idea(主要選選)

eclipse

4、環境使用方式

初探大資料 YARN架構分析 實戰四

yarn架構 1 rm resourcemanager n nm nodemanager resourcemanager的職責 乙個集群active狀態的rm只有乙個,負責整個集群的資源管理和排程 1 處理客戶端的請求 啟動 殺死 3 監控nm 4 系統的資源分配和排程 nodemanager 整個...

大資料開發實戰 Stream SQL實時開發一

流計算sql通常是乙個類sql的宣告式語言,主要用於對流式資料 streams 的持續性查詢,目的是在常見流計算平台和框架 如storm spark streaming flink beam等 的底層api上,通過使用簡易通用的的sql語言構建sql抽象層,降低實時開發的門檻。流計算sql的原理其實...

大資料實戰之環境搭建 六

這篇我們看如何搭建solr,因為第一篇講述了在windows下如何搭建,所以這裡就簡單的說一下。前面已經提到我們將solr壓縮包拷貝至了usr tmp下。之後我們將solr解壓目錄下面的example solr拷貝到上面solr 4.3.0下 ok,完了之後進行我們的最後一步,在tomcat下面的 ...