用統計模型評估高考成績為什麼不行？

今天看到一篇文章，題目是 16萬高中生今年沒高考，用統計模型估成績。大意是受疫情影響，國際文憑組織ib取消了今年期末統考（其重要程度相當於國內高考），因此將使用統計模型為高中畢業生**每門課程的考試分數，用於代替實際考試分數。

根據ib的規定，用於**的原始資料報括：

**方法如下：

文章從準確性、可靠性、公平性三個角度對ib的計畫提出了質疑。在這裡，我也從這三個角度進行分析。

1.公平性

對於第一點，**是教師主觀評價的**成績，這一項可以取消。顯然，人為**不準確，且難以保證教師做到公正無私。

對於第二點，模型的偏見來自資料，而資料報含了真實世界的資訊，因此種族、經濟狀況、家庭背景等社會因素可能成為模型的隱變數。模型只是盡量接近真實分布，而即便是真實的考試成績，也一定會反映出社會偏見，例如背景不利的學生可能得分更低。由於目前許多有效的模型缺乏可解釋性，因此不能夠從技術上排除這些隱變數的影響。退一步說，即便技術上可行，我們需要考慮道德上哪種情況更加公平——乙個比真實情況好的、去除了敏感因素的模型，還是忠於存在偏見的實際情況的模型。我認為對於這次考試，忠於實際情況的模型更公平。儘管人類文明的終極目的是消滅各種歧視和偏見，但是這次小範圍內正義的伸張並沒有改善大環境，我尚沒有考慮清楚這是否成為了少數人的特權，或者對其他正在遭受不公的人造成了更多的不公。或許可以考慮另乙個問題：對於所有統考，假如可以通過技術手段在原始成績上去除社會偏見得到乙個修正的考試成績，這樣是否公平？我認為不是的。要提公升社會的公平性，應該讓那些因隨機的環境優勢而受益的人拿出收益的一部分用於消除環境的系統性差異。否則，僅僅改變分配是治標不治本的，那不是真正的公平。

2.準確性和可靠性

這兩點都是從技術角度來評價模型的效能。目前流行的模型在各種**任務上都有著不俗的表現，我認為如果該任務的準確率在99%以上則是可以接受的。

對於可靠性，資料的規模和質量都是影響因素。而學校之間資料規模和質量的差異導致的模型效能的差異則會影響公平性。

3. 使用統計模型的合理性

即使模型的效能是優秀的，將學生的命運交給具有不確定性的統計模型也是不妥的。雖然模型的統計性質是正確的，但對於每個考生而言，他未必會考出具有最大後驗概率的那個分數。

用統計模型評估高考成績為什麼不行？

為什麼不建議用Table布局

scala中為什麼不建議用return

Scala 中為什麼不建議用 return 關鍵字

用統計模型評估高考成績 為什麼不行？

為什麼不建議用Table布局

scala中為什麼不建議用return

Scala 中為什麼不建議用 return 關鍵字

相關推薦

用統計模型評估高考成績為什麼不行？