資料分箱的適用情形

2021-07-23 22:40:40 字數 537 閱讀 3134

資料分箱是下列情形下常用的方法:

1.某些數值自變數在測量時存在隨機誤差,需要對數值進行平滑以消除噪音。

2.有些數值自變數有大量不重複的取值,對於使用<、>、=等基本操作符的演算法(如決策樹)而言,如果能減少這些不重複取值的個數,就能提高演算法的速度。

3.有些演算法只能使用分類自變數,需要把數值變數離散化。

資料被歸入幾個分箱之後,可以用每個分箱內數值的均值、中位數或邊界值來替代該分箱內各觀測的數值,也可以把每個分箱作為離散化後的乙個類別。例如,某個自變數的觀測值為1,2.1,2.5,3.4,4,5.6,7,7.4,8.2.假設將它們分為三個分箱,(1,2.1,2.5),(3.4,4,5.6),(7,7.4,8.2),那麼使用分箱均值替代後所得值為(1.87,1.87,1.87),(4.33,4.33,4.33),(7.53,7.53,7.53),使用分箱中位數替代後所得值為(2.1,2.1,2.1),(4,4,4),(7.4,7.4,7.4),使用邊界值替代後所得值為(1,2.5,2.5),(3.4,3.4,5.6),(7,7,8.2)(每個觀測值由其所屬分箱的兩個邊界值中較近的值替代)。

HBase適用 不使用情形

hbase不能完全替代hdfs或者關係型資料庫管理系統 hbase並沒有針對傳統的應用或者關係型分析做優化。同時也不適用於替代hdfs來進行大型的mapreduce操作。如果你的應用的模式很多變並且每一行都有些許不同,那麼你應該選擇hbase。例如使用傳統關係型資料庫時你不能快速的新增新列,同時多數...

SAP中採購收貨沖銷和退貨適用情形簡析

關於採購收貨沖銷和退貨適用於不同情形,在應用上也有著本質區別,其在系統中的操作方式也不同。做為使用者可能容易混淆。筆者結合應用上的經驗簡單分析一下。採購收貨沖銷若干適用情形舉例 收貨後,在尚未使用的情況下。發現有質量問題。此時可以在系統中沖銷收貨,並在系統外通知 商做換貨處理。待換貨到貨時,再重新收...

STL容器的適用情況

一 各種容器的特性 vector 典型的序列容器,c 標準嚴格要求次容器的實現記憶體必須是連續的,唯一可以和標準c相容的stl容器,任意元素的讀取 修改具有常數時間複雜度,在序列尾部進行插入 刪除是常數時間複雜度,但在序列的頭部插入 刪除的時間複雜度是o n 可以 在任何位置插入新元素,有隨機訪問功...