資料分布未明確時的檢驗方法

2021-07-23 00:15:48 字數 1289 閱讀 1369

通常,資料有乙個比較明確的分布方式,如二項分布、正態分佈等,也就存在針對具體分布方式的明確檢驗方法。

下面這些檢驗方式是在資料沒有明確的分布方式的情況下使用的,相比有針對明確分布資料集的檢驗方式,效率更低,需要的樣本量更大,更粗糙。乙個資料集可以使用多種方式檢驗零假設,但只要有一種檢驗方式拒絕零假設,那就可以判定拒絕零假設。

也叫sign test。在這篇文章中提到的身高的例子,在這裡我們並不假設身高資料有任何分布形式。計算出樣本中各資料與中位數的差值正負符號,然後用二項分布來檢驗假設。

質檢部門抽檢西洋參,廠商標明重量為100g,以下是抽取25包的稱重結果。

res<-c(99.05,100.25,102.56,99.15,104.89,101.86,96.37,96.79,99.37,96.90,93.94,92.97,108.28,96.86,93.94,98.27,98.36,100.81,92.99,103.72,90.66,98.24,97.87,99.21,101.79)

//樣本中位數為98.36,我們懷疑中位數小於100。下面使用符號檢驗來檢驗該假設。

//根據廠商標明的重量,可知總體中位數100。計算總體中位數100的情況下,該樣本情況的出現概率。

pbinom(sum(res>100),length(res),0.5)

//p值為0.05387607,高於顯著水平,無法確認我們的假設成立。

假設上述抽檢資料基於中位數呈對稱分布,下面使用wilcoxon檢驗我們上面的假設。wilcoxon把樣本中位數左右的資料分別與樣本中位數相減,並各自按差值的絕對值大小排序,得到秩。比較兩邊秩之和的大小,如果差距較大,則說明預估的中位數有問題。

//同樣假設西洋參的重量中位數小於官方標明的100g,下面進行檢驗。

wilcox.test(res,m=100,alternative = "less")//輸出p值為:0.04763,小於顯著水平0.05,可以拒絕零假設,從而確認我們的假設成立。

//如果要比較兩種西洋參的重量,可以分別抽樣,然後使用wilcoxon檢驗兩個樣本的中位數

wilcox.test(res1,res2,alternative = "less")

對於下面這樣一組資料,檢驗一下0和1的出現是否隨機。

data

<-c(0,1,0,0,1,1,1,0,1,0,1,1,0,0,0,1);

runs.test(factor(data));//r package安裝失敗,無法給出結果。如果p值小於顯著水平0.05,可以判定0和1是隨機出現,否則不能判定。

跟二項分布相關的統計檢驗方法

小概率事件在一次試驗中幾乎不可能發生。小概率事件在多次重複試驗中必定會發生。問題 調查北京市所有人喜歡吃麵食還是吃公尺飯 都不喜歡吃的忽略 在北京街頭隨機選了10個人 樣本有點少 有8個喜歡吃麵食,2個喜歡吃公尺飯。由此能否否定北京人喜歡吃麵食的比例為p 0.5呢?10k 10 choose k k...

幾種常見的離群點檢驗方法

設有一組正態樣本的觀測值,按其大小順序排列為x1,x2,x3,xn。其中最小值x1或最大值xn為離群值 xout 對於離群值的統計檢驗,大都是建立在被檢測的總體服從正態分佈。基於此,在給定的檢出水平或顯著水平 通常取值為0.05和0.01 和樣本容量n條件下,可查表獲得臨界值,再通過計算統計量後與臨...

答飄渺 關於許可權樹的檢驗方法

1.所有編號應該是連續的不重複的 這個很容易檢查 編號重複肯定是樹出現了問題 2.檢查節點m 那麼它的所有直接字節點的左右值都在規定m的之間 許可權樹所唯一要求的條件 即 node m.left node k.left node k.right 3.檢查樹是不是主根關係樹.出現孤島最容易發生的 必須...