辛普森悖論簡單解釋

2021-10-11 08:42:17 字數 1426 閱讀 8754

引自:

uc bekeley 研究生錄取男女性別歧視的問題:

1.問題背景:2023年秋季入學 女性同學因男女的錄取率男性高於女性認為不公向校長申訴

在學校層面上,單純從資料上看確實男性的錄取率要高於女性。

但在每個系單獨拿出來,卻顯示出了不同的結果,大部分系普遍女性的錄取比例高於男性。

普遍存在這種現象,如鍛鍊和膽固醇的變化情況可能受到年齡這個混淆因子(這個之後再說)的影響

下面舉例子說明這種產生現象的原因:男性和女性用藥單獨來看用藥普遍對恢復有幫助(即男性和女性用藥恢復的比例都是比不恢復的比例要高),但是在整體上看的話不考慮性別卻顯示用藥恢復的比例比不恢復的比例要低,貌似產生了矛盾(假如一名醫生知道是男是女然後告訴他(她)要吃藥,吃藥是有幫助的,假設不知道性別告訴他(她)吃藥是沒有幫助的,顯然是荒謬的)。

下面從概率的角度來解釋這個現象:

如上圖所述,可以將a看成q和1-q的組合,可以適當取q和q』

需要將性別這個混淆因子去除,就需要分類去推因果關係

重點:(1)統計結論反轉是因為存在混淆變數

(2)混淆變數同時影響原因和結果,觀測資料中性別可以同時影響用藥和恢復

用藥的人可能大部分是某個特定的性別,而這個性別的人有可能恢復較差,因此導致用藥和恢復之間相反的相關性

(3)如果存在混淆變數,正確的方法是看關於這個變數的分組資料,這樣就可以去除混淆變數的影響

2.另一種情況是一方面**通過降低血壓改善恢復,另一方面會對恢復產生***

在這種情況下****對恢復的影響的情況,我們應該看整體資料而不是分類資料

原因如下:

如果考慮分類資料 在高血壓和低血壓兩種情況下分別考慮對恢復的影響的話,其實相當於將混淆因子blood pressure去除,而去除以後就只考慮**對恢復的影響,**對恢復產生的影響只有負面影響,這樣顯然是不合理的(忽略了用藥通過降低血壓促進恢復的影響)

辛普森悖論

辛普森悖論 simpson s paradox 亦有人譯為辛普森詭論,為英國統計學家e.h.辛普森 e.h.simpson 於1951年提出的悖論,即在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。當人們嘗試 兩種變數是否具有相關性的時候,比如新生錄取率與...

辛普森悖論

定義 在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。辛普森悖論就是當你把資料拆開細看的時候,細節和整體趨勢完全不同的現象。措施 斟酌個別分組的權重,以一定的係數去消除以分組資料基數差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。如何才...

一天乙個統計小知識 辛普森悖論

辛普森悖論是在說 在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。怎麼理解這句話呢?下面使用乙個小例子來進行具體宣告。例子 鵝廠為了比較英雄聯盟和王者榮耀這兩款遊戲哪個更受歡迎,分別抽取了1000個男生和1000個女生進行問卷調查,調查結果 假設英雄聯盟和...