大資料學習目錄

2022-03-04 16:06:38 字數 1370 閱讀 2825

推薦

1、gitbook 這裡可以找到優秀的文章及書籍

2、about雲 大資料論壇,**上很多大資料資料

hadoop

博文:1、hadoop2.x集群安裝配置筆記 初學搭建hadoop

2、搭建hadoop2.6.0 hdfs ha及yarn ha 啟動hadoopha容災機制

3、cloudera manager(centos)安裝詳細介紹 使用cm搭建chd版本hadoop平台

4、ambari--大資料平台的搭建利器 使用ambari管理工具搭建hdp版本hadoop平台

書單:1、hadoop權威指南

spark

1、廈門大學研究生課程《大資料處理技術spark》 很好的入門教程簡單易懂寫的詳細,作者是林子雨老師

2、spark入門實戰系列 這系列基本圍繞了spark生態圈進行介紹及實踐的

python

1、零基礎學 python 初學入門非常好

2、python教程 廖大神的教程 包含python2和3的教程

3、python筆記 寫的不錯的筆記簡單清晰

4、你是如何自學 python 的? 太全了

scala

1、scala 開發教程 極客學院的教程

2、scala 教程 runoob.com的教程

machine learning & data mining

博文:1、spark機器學習筆記 原書是使用scala編碼的,這篇是python語言的

2、機器學習個人筆記完整版v4.2 史丹福大學中文筆記,感謝作者共享

3、使用sklearn做單機特徵工程 博文中有多個好文章

4、scikit-learn文章翻譯及實際專案 2023年翻譯的實用作品

5、machine learning 非常好的英文部落格,涉及機器學習和深度學習

書單:1、集體智慧型程式設計

2、統計學習方法 李航

3、機器學習 周志華

競賽1、如何在 kaggle 首戰中進入前 10%

2、第一次參加kaggle拿銀總結

jenkins

1、jenkins學習系列 適合入門級應用

docker

1、docker--從入門到實踐

書單1、kubernetes權威指南:從docker到kubernetes實踐全接觸(第2版)

mongodb

博文1、mongodb 教程 入門級教程

2、mongodb.conf配置檔案詳解

1、mongodb入門篇

2、mongod配置選項說明 包含配置選項說明

書單1、mongodb權威指南

elasticsearch

博文1、elasticsearch 權威指南(中文版) 入門必看

大資料學習目錄

推薦 1 gitbook 這裡可以找到優秀的文章及書籍 2 about雲 大資料論壇,上很多大資料資料 hadoop 博文 1 hadoop2.x集群安裝配置筆記 初學搭建hadoop 2 搭建hadoop2.6.0 hdfs ha及yarn ha 啟動hadoopha容災機制 3 cloudera...

大資料學習

1.資料清洗 洗掉髒資料,對資料最後一步審核和糾正,包括一致性檢查,無效資料,不完整資料,衝突資料,重複資料等的處理,計算機自動完成。2.資料傾斜 資料傾斜就是我們在計算資料的時候,資料的分散度不夠,導致大量的資料集中到了一台或者幾台機器上計算,這些資料的計算速度遠遠低於平均計算速度,導致整個計算過...

大資料學習

hadoop的hdfs和mapreduce子框架主要是針對大資料檔案來設計的,在小檔案的處理上不但效率低下,而且十分消耗記憶體資源 每乙個小檔案占用乙個block,每乙個block的元資料都儲存在namenode的記憶體裡 解決辦法通常是選擇乙個容器,將這些小檔案組織起來統一儲存。hdfs提供了兩種...