DataFu在Apache進入孵化狀態

2021-06-21 03:14:13 字數 754 閱讀 7980

該專案建立於2023年1月,早期的定位是作為pig專案的使用者定義函式集(udf )。相對於更加通用的udf集如piggybank,datafu更側重於資料探勘和統計 類的函式,例如分位數計算和取樣方法。2023年10月,乙個名為datafu hourglass的新庫加入到此專案。hourglass是用於mapreduce的類庫,為作業提供了處理增量資料的能力。其處理方式一般是在hdfs中儲存上乙個作業的狀態,並用它來處理新的輸入。現在這兩個專案都成為孵化器的一部分。

datafu在apache進入孵化狀態,是其前進過程中的一大步。任何專案都要經過嚴格的審查,完成投票程式才能進入孵化器。2023年初建立的datafu,2023年初才成功進入孵化器。通常,乙個apache專案完成孵化需要一定的時間,一旦專案的相關服務(wiki、郵件列表、教程等等)建設完成,datafu將結束孵化,成為asf的頂級專案或者hadoop的子專案。

隨著最近進入apache孵化器,datafu有了很多近期的發展計畫。其中最關鍵的功能之一是為hive和crunch提供同一udf,以使其得到更大範圍的應用。其中包括將專案的構建系統移植到gradle,這些工作datafu社群目前正在做。構建系統從ant改為gradle的好處是能夠鞏固社群,使其以更簡單的 流程新增新功能。

datafu社群還比較小,但保持著穩定的增長。russell jurney最近的貢獻使open nlp專案成了datafu 1.3.0的一部分。郵件列表中討論的焦點是增加更多udf,就像專案貢獻者matthew hayes和sam shah所描述的,讓datafu成為「大資料的wd-40」。

在apache中設定訪問目錄後進入的預設頁面

接觸apache不太久,今天寫了乙個index.php檔案,開啟位址一直打不開這個檔案,可能是之前一直產生一種錯覺,以為進入 的預設頁面是index,其實是index.html,下面看一下預設的apache配置檔案內容 directoryindex index.html 找到apache的配置檔案h...

在OpenBSD中安裝Apache

這幾天折騰openbsd。之前做過乙個虛擬機器,放在外網上做伺服器,結果宿主環境毀了,這個映象也就丟了。這次重安裝,竟然和重新弄完全一樣,大腦裡一點兒印象沒有。openbsd這個東西,不像centos和ubuntu,可以有非常好用的yum和apt get,它帶了個pkg add,也可以實現通過網路安...

apache在linux下安裝

主流linux系統版本基本上都整合了apache伺服器httpd,我們可以通過如下命令來檢視我們的作業系統上是否已經安裝了apache伺服器httpd 查詢服務是否啟動 停止服務 httpd k stop 解除安裝httpd伺服器 yum remove httpd yum安裝 yum install...