評測資料的檢驗基礎二,評測結果的驗證

2021-04-26 05:11:28 字數 779 閱讀 5863

在檢索領域中,處理相關排序有關的質量評測,除了對結果的比較分析,還必須做統計的顯著性檢驗以及抽查率檢驗

顯著性檢驗來自統計學理論。對質量評測結果做顯著性檢驗,是利用統計學的方法,檢驗被處理的問題是否存在統計上的顯著差異。

若存在顯著性差異而又肯定測試過程中沒有錯誤,可以認定所用的方法有不完善之處,即存在較大的系統誤差。所以要對測試結果進行統計檢驗。

顯著性檢驗的一般步驟

1. 做乙個假設,即假設不存在顯著性的差異,或所有樣本**於同一體

2. 確定乙個顯著性水準,通常,檢索領域用的是0.05,即置信度為95%

3. 統計量計算和做出判斷

常用的顯著性檢驗的方法有:t檢驗、f檢驗、x^2檢驗

t檢驗法有2種情況系可以採用。1種是平均值與標準值的比較;第2種是兩組資料的平均值比較(這種是檢索領域中最常用的顯著性檢驗方法之一)

f檢驗法的應用場景是,2個人評測一樣的資料但是結論不同,這時候要看這個結論是否在統計上可以接受,還是個人誤差顯著性。

x^2檢驗的場景是,對3組或3組一樣的平均值做比較。比如,我們用同樣的方法評測不同的資料,如果還用t檢驗,要檢驗3次,比較麻煩。用x^2,可以一次性完成

不論是採用何種檢驗方法,都要用到標準差,就是系列一的內容。如果有spss,就很方便,它就幫你做了。如果沒有,可以在網上找到對應的公式,一點點的計算。這個就很麻煩

顯著性檢驗的過程,可以放在評測工具中的統計模組中,只要把公式確定並交給程式,接下來的事情就是檢視資料並分析了。打杯coffee,不用動手,讓工具幫助我們完成,多省事~~~

演算法複雜度的估計,以及常見評測結果

程式給定1秒的執行時間,則我們設計的演算法時間複雜度不能超過百萬級別,即不能超過一千萬,即若演算法的時間複雜度是o n 2 則該n不應大於3000.常見評測結果 accepted 得到該題全部分數 wrong answer 對若干組測試資料或者全部資料沒有輸出正確結果 解決方向 如果對設計的演算法有...

推薦系統的評測指標

準確度度量乙個推薦系統或者推薦演算法 使用者行為的能力。這個指標是最重要的推薦系統離線評測指標,從推薦系統誕生的那一天起,幾乎99 與推薦相關的 都在討論這個指標。這主要是因為該指標可以通過離線實驗計算,方便了很多學術界的研究人員研究推薦演算法。但是上面的定義過於粗略。覆蓋率為 100 的系統可以有...

UVAOJ的註冊和評測入門

由於uvaoj是個英文版的 所以,不少初中和小學的資訊學奧賽選手看不明白這是怎麼回事兒,在此,我一併做個簡單的說明,希望對各位有所幫助。1 據說,uvaoj 和ie之間的相容性不是很好,所以,請各位盡量使用firefox瀏覽該 2 uvaoj的位址是 不管你用任何辦法,必須看到這個 3 未註冊過的使...