跟我一起資料探勘(10) HP Vertica

2021-09-23 21:35:35 字數 535 閱讀 2582

考慮到企業資料倉儲的重要戰略意義(edws)和每年投入的鉅額維護和擴充套件費用,如何容易地訪問這些大量資訊資產是非常迫切的需求。然而,許多edws成為自己成功的受害者。隨著時間的推移,使用者獲取新問題答案的需要導致edws包含的資料量和複雜資料型別發生迅速增長,同時也帶來更多的併發和複雜分析的壓力。如果企業級資料倉儲變得無法應付這種變化,或者服務水平協議(sla)不能滿足使用者的要求,企業則往往不得不進行昂貴的資料庫重新設計或硬體平台遷移擴容專案,這往往需要持續好多個月以及帶來大量成本損失。即使如此新的架構也往往由於資料量增加得太快(目前已經有大量的客戶從tb向pb級別擴充套件),而導致系統不得不進行更多的優化,這些優化需要占用大量的磁碟儲存,帶來了儲存浪費和i/o瓶頸的問題。因此如何解決在以往edws架構保持不變的狀況下來滿足新的實時性分析應用的需要成為技術創新的重要領域。vertica正是這一領域的積極創新先鋒。

下面這篇文章對vertica和inforbright進行了對比:

下面是關於建庫和建表的示例:

關於管理部分可以參考:

實測的過億條資料,在單錶查詢的情況下,效能非常理想,推薦一下!

跟我一起資料探勘(15) 線性回歸

線性回歸是利用數理統計中的回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。分析按照自變數和因變數之間的關係型別,可分為線性回歸分析和非線性回歸分析。在統計學中,線性回歸 linear regression 是利用稱為線性回歸方程的最小平方函式對乙個或多個自變數...

跟我一起資料探勘(18) 什麼是資料探勘(1)

前兩天看到群裡有人問,什麼是資料探勘,現在就資料探勘的概念做一下分析,並且盡量用大白話說一下資料探勘到底是個啥東西,為啥大資料來了資料探勘也火了 其實原來就挺火 先看一上概念 資料探勘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。價值包括以下幾類 1 相關性 相關性分析是指對...

跟我一起資料探勘(18) 什麼是資料探勘(1)

前兩天看到群裡有人問,什麼是資料探勘,現在就資料探勘的概念做一下分析,並且盡量用大白話說一下資料探勘到底是個啥東西,為啥大資料來了資料探勘也火了 其實原來就挺火 先看一上概念 資料探勘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。價值包括以下幾類 1 相關性 相關性分析是指對...