大資料技能修煉的個人道場

2021-09-19 19:25:44 字數 912 閱讀 5950

大資料技術火熱而且火爆,學習大資料的課程和資料也氾濫如潮,而大資料研發環境又不是隨便就可以搭建起來的,如何有乙個自己隨時可用的大資料修煉道場呢?

網上有很多hadoop單機版的搭建教程,但大多是基礎元件,如果想窺探hadoop 的整個生態系統,並建立乙個人的大資料環境,從而修煉大資料的各種技術,我覺得非 hdp 的sandbox 莫屬了。 

hdp 的sandbox 是乙個基於虛擬機器的單節點hadoop集群,相當於乙個偽分布式環境,學習和使用都非常的輕鬆便捷。虛擬機器既支援vmware也支援virtualbox,完全可以在windows和mac 上無縫執行,需要注意的是需要64位的主機多核cpu並支援虛擬化。

以virtualbox為例,三步,只需三步,就可以搭建自己修煉大資料技術的環境了。

選擇virtual box 版本即可,檔案較大,接近9個g,要有耐心。

3)啟動virtualbox,倒入hdp sandbox映象,import 完成後如下圖:

忽略那個我自己的ubantu映象,啟動hdp sandbox 即可。 從ambri開始,就可以逐漸走進hadoop 的ecosystem 了。

如果只是想馬上實踐大資料平台計算的應用,可以直接利用雲服務。

aws 的大資料雲服務:

這是emr,當時實時流處理也很強。

阿里雲的大資料雲服務:

只可惜還在公測,沒了ali 的名頭

青雲的大資料雲服務: 

後起之秀,也不錯,只是hbase 還沒有商用。

其他的雲paas 大資料計算 沒有過多嘗試,不敢妄言了。

學習大資料開發應該了解的幾個技能

1 linux 大資料集群主要建立在linux作業系統上,linux是一套免費使用和自由傳播的類unix作業系統。而這部分的內容是大家在學習大資料中必須要學習的,只有學好linux才能在工作中更加的得心應手。2 hadoop 我覺的大家聽過大資料就一定會聽過hadoop。hadoop是乙個能夠對大量...

專業人士處理大資料所需的技能

資料分析師的工作包括收集 清理 視覺化資訊塊,並將原始資料轉換或建模為營銷人員 開發人員 會計師使用。資料分析師的工作流程是由組織的需求定義的,但最終的可交付成果總是相同的 結構良好且易於檢索的資料。資料分析師的工作包括收集 清理 視覺化資訊塊,並將原始資料轉換或建模為營銷人員 開發人員 會計師使用...

大資料分析師需要掌握的技能

聽說弟弟想當大資料分析師,我想了想他高考數學79分的好成績,陷入了沉思。弟弟說,我是要成為大資料分析師的男人。我輕嘆一口氣,說,弟弟,你志向遠大,但是你得考慮一下自己的實際情況啊。弟弟說 老姐啊,你是不是瞧不起我啊,我好不容易想學大資料分析知識成為大資料分析師,你就直接給我潑冷水啊,要知道,弟弟我比...