統計資料也說謊?如何跳出資料分析盲區

2021-09-12 03:48:46 字數 4083 閱讀 4471

資料千萬條,甄別第一條,資料不規範,老闆兩行淚。

對產品經理而言,資料無疑是工作中需要常常借鑑的物件,畢竟這是個資料推動發展的時代。資料之所以重要,正是因為資料是記錄客觀事實的一種符號,因此在統計資料面前,許多人潛意識裡的第一反應就是無條件信任它。

但現實是,許多看似靠譜的資料,都是別有用心的機構利用了資料的客觀性,為我們輸出了乙個與現實大相徑庭的結論。雖然資料本身不會說謊,但說謊者需要資料。

資料都說了哪些謊?

1. 樣本偏差的欺騙性

(1)倖存者偏差

也叫「沉默的資料」。如果要說得更具體點,就是當你在分析某個事物的時候,可能會面對諸多的證據(樣本),但是大多數人通常只注意到「顯式」的樣本和證據,而忽略了「隱式」的樣本和證據,從而得出錯誤的認知、錯誤的結論。

下面舉乙個最著名的例子:二戰期間,英國皇家空軍計畫在轟炸機上進行改造,以抵抗德軍戰鬥機和陸基高射炮的攻擊。

他們統計了聯軍返航的轟炸機受損情況,作戰指揮官認為應該加強機翼的防護,因為分析表明,那裡「密密麻麻都是彈孔,最容易被擊中」。但是統計學家卻有不同觀點,他建議加強座艙與機尾部位的裝甲,因為那兒發現的彈孔最少,說明大多數被擊中飛行員座艙和尾部發動機的飛機,根本沒法返航就墜毀了。

上面的例子不是資料說謊,而是你沒注意到沉默的資料(缺少了的樣本)。當資料樣本僅採自「倖存者」、資訊不夠全面的時候,得出來的結論有可能才是最離譜的,需要分析者有足夠廣的視角和邏輯,才能從資料裡挖掘出隱性的真相。

(2)不充分的樣本資料

你也許常常能從廣告中的某些權威機構、研究人員口中得知這些結論,但如果你仔細**,或許能看到這樣一行小字:此次實驗由**(假設30)名使用者組成,甚至有些廣告還故意抹去這些資訊。這些資訊意味著,只要你找來多組測試使用者,每組30人,持續使用一段時間的該品牌產品,就會得出以下的任意一種結果(以牙膏為例):

事實上,不管使用者使用的是哪種牙膏,由於機遇作用,第二種結果是遲早會被試驗出來的。由於試驗人數只有30人(樣本總數不大),所以得到的結論極有可能是牙膏效果極佳(蛀牙減少23%),商家就是利用這樣不充分的樣本資料,來達到預期的廣告效果。現實中,也要警惕在資訊不對稱的情況下,脫離總量談現象的流氓思維。

(3)樣本本身存在偏差

假設調研一座城市的人均消費水平。如果是在飛機場調研,或許會得出「城市發達、人民收入高」等結論,但如果到貧民窟裡調查,結論就會截然相反,因為城市裡真正貧窮的人很少會在機場出沒。

企業也常常利用這種選擇性的誤差來為某個現象尋求合理性,比如智慧型手機領域喜歡用資料「打臉」友商,但是由於大家採用的統計口徑不同,所以常常在同一領域遇到資料打架的情況。

還有一種情況就是樣本不夠真實,比如全社會都在傳播「吃飯不光碟是種可恥的行為」這種理念後,這時你再去調研這個話題,絕大多數受訪人都會表示自己是個「淨壇使者」,因為幾乎所有調查都無法避免人們往自己臉上貼金,這種情況下除非採用匿名調查或者直接調查飯後餐桌上的盤子,否則很難獲取到完全真實的資料。

這些案例說明即便你找不到任何資料遭到破壞的證據,也很難避免樣本本身在說謊,因此只要是樣本有存在變數誤差的可能,就要保留懷疑的態度。

2. 用平均數掩蓋差距

類似的,即使某地區人均收入有了提公升,但依然存在一種可能性,就是富人財富量的增加遠遠快於窮人財富量的增加,造成的結果是「資料顯示人均收入上公升,但貧富差距在拉大」。

比如美國前**歐巴馬在謀求第二任期的競選活動中提到,「美國經濟自09年以來增長了13%」。但他沒有說的是,其實美國人只有最富有的那1%的人收入增長了,剩下的99%的人收入反而比以前有輕微的下降。歐巴馬雖然贏得了連任,但「整體經濟復甦」與「大多數人的可支配收入沒有增長」的矛盾卻依然無解。

通常情況下,你並不會被告知資料報含了多少觀測值,當均值和中位數相差甚遠的時候,你就需要注意那些沒有標明型別的平均數(均值、中位數、眾數),否則你對它的認知依然停留在表面。

3. 資料的視覺欺騙性

上圖是2023年我國各省gdp的統計影象,可以看到,同樣的資料在不同的座標軸裡呈現出來的狀態截然不同,左圖資料取等量遞增繪圖,右圖資料取十進位制繪圖,呈現出來的視覺效果有相當大的不同,大多數人的第一直覺是:

也許大家都發現了,波動是可以被人為操縱的,但資料卻是真實的。ppt領域有一句很經典的話:能用圖,不用表,能用表,不用字。圖表誠然能幫我們更直觀的了解事實,但許多報告和演講就是有心利用資料的視覺誤差,誤導觀眾的判斷,分辨能力弱的讀者就容易被牽著鼻子走。

如果你細心留意的話,就能發現很多產品的發布會和權威機構調查對這招都是屢試不爽的,雖然資料本身沒有問題,但這樣的呈現方式僅僅是為了好看。現在是資訊化時代,一段資訊裡有價值的文字往往不如一張靚麗的圖表更抓人眼球,加強對資料視覺化的資訊分辨能力會少走很多彎路。

4. 資料不能替你思考

看到這條資訊你是選擇相信還是陷入沉思?如果我們通過這條資料強行把兩者聯絡起來分析的話,推導出來的結論很有可能是:

很詫異對吧,但如果你跳脫出資料分析的思維,以常識去推理,你就知道兩者根本沒有聯絡,唯一的契合點在於「夏天天氣熱」,冰激凌的銷量會因此上公升,下水游泳的人也會因此增多,自然會有更多溺水事件發生。

資料是客觀的、理智的,但人是經驗主義者,更善於用邏輯去認識和判斷事物,資料的絕對客觀性,往往會把我們被拖入單維思考的沼澤裡。

就像電影《流浪地球》的片段:以色列科學家提出點燃木星的想法,被空間站的人工智慧莫斯否決。道理很簡單,莫斯作為人工智慧,是絕對理性的化身,它經過周密的科學計算後得出的結論表明:這個方案成功的概率為零,但它忽略了人類是具有感情的生物(或許是故意忽略),衝動和情感能突破理性的底線,做出人工智慧不能理解的行為。

簡而言之,用空間站撞擊木星這種看上去不合理的感性行為,也許恰恰不在莫斯的資料分析範圍內。

電影雖然是電影,但它能對映現實。許多在人類看來再正常不過的邏輯思維,卻是冰冷傲慢的資料分析的盲區,這本質其實是單維思考和多維思考、客觀事實和主觀邏輯的衝突。資料可以輔助你思考,但它不能代替你思考,千萬不要患上唯資料論的怪病,在認識事物的時候一定要問問自己:該相信邏輯還是該相信資料?

如何避免資料說謊

通過上面的案例我們可以知道,資料是客觀產生的,它只能反映問題,不會主動撒謊,真正說謊的**有三個「人」:

資料的真實性

解決的方法,第一件要預防資料生病,就是辨別資料可信度(真實性)。簡單來說,通常要遵循兩個原則:越接近第一手的資料越真實,採集的樣本越全面越可信。

例如網際網路產品經理常常更關心資料分析的結論,而忽視了原始資料的**和真實性,源頭如果出現問題,一切的分析都是徒勞的。如果你更關心渠道資料的精準度,可以使用 openinstall 進行渠道**歸因統計和活動推廣效果監測, openinstall 在渠道資料精準度上還是比較專業的。

2. 利用資料的目的

我們要明白統計資料的真實價值:資料是用來揭示事物規律,進而解決問題、創造未來的。如果結論本身已經客觀存在,你用再多的資料也無法讓結論變得更加正確,如果有人想要找到某個證據(資料)來論證觀點,方法多的是,早晚能夠找到。

讓資料來回答問題,然後從這些資料中創造更多的可能,這才是資料存在的現實意義,也是用來辨別哪些人在利用資料說謊的方法。

3. 解讀出現偏差

要善用常識性的思維和多個角度去看待客觀事物的發展,既認識到資料和統計學的力量,也要了解它的侷限性。當然,這也需要我們有基礎的數理科統計知識儲備。

資料和模型只是人們用來總結改進的方法,實踐才是真理,如果想要更深層次的解讀資料背後的意義,就要自己多去挖掘和實踐。

總結

真實深度的資料在工作中是非常有參考價值的,尤其能幫助我們建立分析框架,彌補思維漏洞。要知道,資料並不能代替分析人員做決定,獲取真實資料、善於運用資料、識破資料**,是需要長期培養和掌握的技能。

機器學習開放專案 NBA統計資料分析

本資料報括2004 2005 nba和aba統計資料 this download contains 2004 2005 nba and aba stats for 球員常規賽資料 player regular season stats 球員常規賽季職業生涯總進球數 player regular se...

機器學習開放專案 NBA統計資料分析

本資料報括2004 2005 nba和aba統計資料 this download contains 2004 2005 nba and aba stats for 球員常規賽資料 player regular season stats 球員常規賽季職業生涯總進球數 player regular se...

分組統計資料

with a as select convert varchar 10 starttime,120 starttime,case when organid like 0226 then else 非 end as deptname,sum case when billableseconds 0 th...