阿武的部落格文件索引

2021-09-28 23:19:48 字數 1465 閱讀 7481

數倉etl**優化 - 找到經常在一起做join的表

數倉etl**優化 - 表字段 被過濾和聚合的次數

資料倉儲是什麼,如何建立(總結)

資料倉儲解決問題和分層設計好處

一致性維度表 設計思路

一致性事實表 設計思路

資料倉儲-元資料簡單總結

元資料-血緣分析-應用場景總結

資料資產管理-簡單總結

數倉-hive元資料收集指標

hive元資料收集(python版本)

hive元資料使用場景落地(python版本)

hive 字段級血緣分析 寫入neo4j

hive - udaf開發(字串**現 指定字元的次數,再求次數的平均數)

hive sql 遷移到 spark sql 問題集合

hive - udtf開發(指定分割符分割字串,返回對應的大小寫字串)

hive map和reduce數量 優化點

sqoop 同步parquet partition hive表

hive元資料 表結構

hive metastore部署方式

hive sql - multi distinct 優化

hive sql 計算留存率 思路

hive分割槽表新增欄位cascade 執行時間過長出現bug

hive collect_set 結果順序不一致

hive orc表 刪除字段

同乙個sql 在hive和spark-sql 跑出結果不一樣記錄

dr elephant(hive job監控調優)安裝使用

通過 dr-elephant 監控異常hive任務並報警

dr-elephant 丟失部分 yarn job

獲取yarn上執行時間最長的job列表,並檢視是否存在資料傾斜

hive sql資料傾斜情況以及解決辦法

mr過程

spark-dagscheduler之job的提交劃分stage

hive表 占用hdfs空間 top表查詢

hdfs檔案壓縮工具,支援各種壓縮格式

跑滿yarn資源-優化方向

yarn佇列資源、namenode等資料指標監控

yarn集群資源如何分配

yarn假死處理(job超過10000個)

zeus排程工具啟動慢(zeus_action資料量太大)

一、hera排程系統基本資料結構(event、listener、dispatcher)

二、hera排程系統初始化、生成和清理版本

三、hera排程系統 待執行佇列 入隊和出隊時機

hadoop yarn元件介紹

yarn-container申請和分配

搭建cdh 阿里雲 (step 1: 啟動hdfs)

搭建cdh 阿里雲 (step 2: 啟動yarn)

搭建cdh 阿里雲 (step 3: 搭建hive)

hive on spark搭建(cdh)

部落格搜尋引擎列舉 部落格搜尋引擎的淺比較

部落格搜尋引擎列舉 部落格搜尋引擎的淺比較 今天突然想使用 部落格搜尋引擎 所以找到啦這篇在譯言翻譯的文章。o o.特點 推送新文章較快 部落格搜尋引擎的目的在於索引部落格 並顯示一些可以在feed裡輕易找到的資訊,像文章日期 作者或該文章所標記的所有tag。不像web搜尋引擎,部落格搜尋引擎要爬的...

阿Y 建立個人部落格的四大好處

作為乙個站長,如果你還沒有部落格,那就太程式設計客棧落伍了。這裡所說的部落格並非新浪部落格 天涯部落格等,而是屬於自己的個人部落格。那麼我們為什麼要建立個人部落格,個人部落格對於我們站長又有什麼好處呢?那麼筆者就以本人的佛山seo排名首頁的部落格作為案例來談談吧。第一 個人部落格更自由更方便 個人部...

如何生成 markdown 文件的內容索引

目前很多文件都是用 markdown 格式編寫,並且以 的形式託管在 gitlab 上,同時,使用 gh md toc 來生成文件目錄。但是,gh md toc 會直接將結果列印到 stout,而我們想要直接將其新增到文件頭部,而不是從 stdout 再複製貼上,然後還要格式化空行。顯然,我們需要將...