Nifi 刪除hdfs上的歷史資料

2021-09-21 17:46:54 字數 987 閱讀 2235

之前通過 nifi 每隔幾分鐘將資料庫中的資料 寫入到 hdfs上,不過後面資料中小檔案過多,因為需要刪除歷史的資料,所幸寫入hdfs的時候都是 table_name/分割槽鍵 寫入的。因此只要刪除歷史的分割槽資料夾就可以完成資料的刪除操作了。

ex:/user/hive/warehouse/zhong/ge_sys_person/pt=20190203/....

/user/hive/warehouse/zhong/ge_sys_person/pt=20190204/....

/user/hive/warehouse/zhong/ge_sys_person/pt=20190403/....

現在需要刪除20190203這個資料夾的資料。

為了後期的便於管理,先將要刪除的表寫入到資料庫中。

然後通過executesql 這個控制項將要刪除的表 讀取到nifi中。通過partitionrecord將 要刪除的表的名稱 新增到flowfile的attribute中。

接下來就是 設定 刪除的表的分割槽值是多少。

其中的retaindays 是保留的天數。這裡是4.這樣如果今天是4月5號,那麼time就是20190401。

這樣刪除的表名 和 分割槽值 拿到手之後,就要設定刪除路徑。

通過updateattribute 設定 得了特 path,然後傳入到 deletepath中就可以了。

之所以通過資料庫儲存資訊是為了後面的管理方便,不需要每次去修改nifi中的控制項,直接修改資料庫中的內容就可以了。

Secure CRT設定 刪除與上鍵出歷史

secure crt,是一款 支援 ssh2 ssh1 telnet telnet ssh relogin serial tapi raw 等協議的 終端 程式,最吸引我的是,securecrt 支援標籤化 ssh 對話,從而可方便地管理多個 ssh 連線,設定項也極為豐富。簡單的說是windows...

subversion歷史版本的刪除

subversion早期版本的刪除 最近乙個版本管理伺服器發生了硬碟空間不夠的問題。調查結果是其中乙個版本庫居然有47g,佔據了大部分的伺服器硬碟空間。經過跟使用的公司協商,決定採用刪除版本庫早期履歷的方式縮減版本庫尺寸。具體作業過程如下 準備工作 停止apache伺服器,修改版本庫目錄路許可權為r...

python讀取hdfs上的parquet檔案方式

在使用python做大資料和機器學習處理過程中,首先需要讀取hdfs資料,對於常用格式資料一般比較容易讀取,parquet略微特殊。從hdfs上使用python獲取parquet格式資料的方法 當然也可以先把檔案拉到本地再讀取也可以 1 安裝anaconda環境。2 安裝hdfs3。conda in...