自然劃分的3 4 5規則

2021-09-13 19:38:46 字數 1051 閱讀 6034

自然劃分的3-4-5規則常被用來將數值資料(連續型資料)劃分為相對一致、更自然的區間, 規則的劃分步驟:

(1) 如果乙個區間最高有效位上包含3,6,7或9個 不同的值,就將該區間劃分為3個等寬子區間; (為7的話,劃分成 2,3,2的寬度比例) ;

(2) 如果乙個區間最高有效位上包含2,4,或8個不 同的值,就將該區間劃分為4個等寬子區間;

(3) 如果乙個區間最高有效位上包含1,5,或10個不同的值,就將該區間劃分為5個等寬子區間;

將該規則遞迴的應用於每個子區間,產生給定數值屬性的概念分層

對於資料集**現的最大值和最小值的極端分布,為了避免上述方法出現的結果扭曲,可以在頂層分段時,選用乙個大部分的概率空間。 如 選擇5%-95%的資料,再進行以上規則的劃分。

例項1:如某公司的銷售增量在 -180~383之間,採用該規則進行劃分如下,首先取定乙個整的左閉右開的區間

向下取整-180 是 -200 ,向上取整383是400

[-200,400)。最高位是百分位,最高有效位有-2、-1、1、2、3,4一共6個,分成3個等寬區間 (注意0的情況)

a1 [-200,0)             a2 [0,200)              a3[200,400)

再劃分每個區間的最高有效位是2個,子區間劃分4個

a1 [-200,0)             a2 [0,200)              a3[200,400)

a11[-200,-150)          a21[0,50)               a31[200,250)

a12[-150,-100)          a22[50,100)            a32[250,300)

a13[-100,-50)            a23[100,150)          a33[300,350)

a14[-50,0)                  a24[150,200)          a34[350,400)

a14[-50,0)                a24[150,200)          a34[350,400)

自然對齊規則

基本型別的長度計算 sizeof char 的長度為 1 sizeof short 的長度為 2 sizeof int 的長度為 4 sizeof long 的長度為 4 win x86和x64都為4,linux x86為4,x64為8 sizeof float 的長度為 4 sizeof doub...

Spark中劃分stage的規則

常見的有map,flatmap,filter,sample 常見的有sortbykey,reducebykey,groupbykey,join 在spark中,每個任務對應乙個分割槽,通常不會跨分割槽運算元據。但如果遇到寬依賴的操作,spark必須從所有分割槽讀取資料,並查詢所有鍵的對應值,然後彙總...

自然數拆分(整數劃分一)

time limit 1 ms memory limit 128 mb difficulty 2 輸入自然數n,然後將其拆分成由若干數相加的形式,參與加法運算的數可以重複。輸入只有乙個整數n,表示待拆分的自然數n。n 80 輸出乙個數,即所有方案數 7 14解釋 輸入7,則7拆分的結果是 7 1 6...