統計資料也說謊？如何跳出資料分析盲區

資料千萬條，甄別第一條，資料不規範，老闆兩行淚。

對產品經理而言，資料無疑是工作中需要常常借鑑的物件，畢竟這是個資料推動發展的時代。資料之所以重要，正是因為資料是記錄客觀事實的一種符號，因此在統計資料面前，許多人潛意識裡的第一反應就是無條件信任它。

但現實是，許多看似靠譜的資料，都是別有用心的機構利用了資料的客觀性，為我們輸出了乙個與現實大相徑庭的結論。雖然資料本身不會說謊，但說謊者需要資料。

資料都說了哪些謊？

1. 樣本偏差的欺騙性

（1）倖存者偏差

也叫「沉默的資料」。如果要說得更具體點，就是當你在分析某個事物的時候，可能會面對諸多的證據（樣本），但是大多數人通常只注意到「顯式」的樣本和證據，而忽略了「隱式」的樣本和證據，從而得出錯誤的認知、錯誤的結論。

下面舉乙個最著名的例子：二戰期間，英國皇家空軍計畫在轟炸機上進行改造，以抵抗德軍戰鬥機和陸基高射炮的攻擊。

他們統計了聯軍返航的轟炸機受損情況，作戰指揮官認為應該加強機翼的防護，因為分析表明，那裡「密密麻麻都是彈孔，最容易被擊中」。但是統計學家卻有不同觀點，他建議加強座艙與機尾部位的裝甲，因為那兒發現的彈孔最少，說明大多數被擊中飛行員座艙和尾部發動機的飛機，根本沒法返航就墜毀了。

上面的例子不是資料說謊，而是你沒注意到沉默的資料（缺少了的樣本）。當資料樣本僅採自「倖存者」、資訊不夠全面的時候，得出來的結論有可能才是最離譜的，需要分析者有足夠廣的視角和邏輯，才能從資料裡挖掘出隱性的真相。

（2）不充分的樣本資料

你也許常常能從廣告中的某些權威機構、研究人員口中得知這些結論，但如果你仔細**，或許能看到這樣一行小字：此次實驗由**（假設30）名使用者組成，甚至有些廣告還故意抹去這些資訊。這些資訊意味著，只要你找來多組測試使用者，每組30人，持續使用一段時間的該品牌產品，就會得出以下的任意一種結果（以牙膏為例）：

事實上，不管使用者使用的是哪種牙膏，由於機遇作用，第二種結果是遲早會被試驗出來的。由於試驗人數只有30人（樣本總數不大），所以得到的結論極有可能是牙膏效果極佳（蛀牙減少23%），商家就是利用這樣不充分的樣本資料，來達到預期的廣告效果。現實中，也要警惕在資訊不對稱的情況下，脫離總量談現象的流氓思維。

（3）樣本本身存在偏差

假設調研一座城市的人均消費水平。如果是在飛機場調研，或許會得出「城市發達、人民收入高」等結論，但如果到貧民窟裡調查，結論就會截然相反，因為城市裡真正貧窮的人很少會在機場出沒。

企業也常常利用這種選擇性的誤差來為某個現象尋求合理性，比如智慧型手機領域喜歡用資料「打臉」友商，但是由於大家採用的統計口徑不同，所以常常在同一領域遇到資料打架的情況。

還有一種情況就是樣本不夠真實，比如全社會都在傳播「吃飯不光碟是種可恥的行為」這種理念後，這時你再去調研這個話題，絕大多數受訪人都會表示自己是個「淨壇使者」，因為幾乎所有調查都無法避免人們往自己臉上貼金，這種情況下除非採用匿名調查或者直接調查飯後餐桌上的盤子，否則很難獲取到完全真實的資料。

這些案例說明即便你找不到任何資料遭到破壞的證據，也很難避免樣本本身在說謊，因此只要是樣本有存在變數誤差的可能，就要保留懷疑的態度。

2. 用平均數掩蓋差距

類似的，即使某地區人均收入有了提公升，但依然存在一種可能性，就是富人財富量的增加遠遠快於窮人財富量的增加，造成的結果是「資料顯示人均收入上公升，但貧富差距在拉大」。

比如美國前**歐巴馬在謀求第二任期的競選活動中提到，「美國經濟自09年以來增長了13%」。但他沒有說的是，其實美國人只有最富有的那1%的人收入增長了，剩下的99%的人收入反而比以前有輕微的下降。歐巴馬雖然贏得了連任，但「整體經濟復甦」與「大多數人的可支配收入沒有增長」的矛盾卻依然無解。

通常情況下，你並不會被告知資料報含了多少觀測值，當均值和中位數相差甚遠的時候，你就需要注意那些沒有標明型別的平均數（均值、中位數、眾數），否則你對它的認知依然停留在表面。

3. 資料的視覺欺騙性

上圖是2023年我國各省gdp的統計影象，可以看到，同樣的資料在不同的座標軸裡呈現出來的狀態截然不同，左圖資料取等量遞增繪圖，右圖資料取十進位制繪圖，呈現出來的視覺效果有相當大的不同，大多數人的第一直覺是：

也許大家都發現了，波動是可以被人為操縱的，但資料卻是真實的。ppt領域有一句很經典的話：能用圖，不用表，能用表，不用字。圖表誠然能幫我們更直觀的了解事實，但許多報告和演講就是有心利用資料的視覺誤差，誤導觀眾的判斷，分辨能力弱的讀者就容易被牽著鼻子走。

如果你細心留意的話，就能發現很多產品的發布會和權威機構調查對這招都是屢試不爽的，雖然資料本身沒有問題，但這樣的呈現方式僅僅是為了好看。現在是資訊化時代，一段資訊裡有價值的文字往往不如一張靚麗的圖表更抓人眼球，加強對資料視覺化的資訊分辨能力會少走很多彎路。

4. 資料不能替你思考

看到這條資訊你是選擇相信還是陷入沉思？如果我們通過這條資料強行把兩者聯絡起來分析的話，推導出來的結論很有可能是：

很詫異對吧，但如果你跳脫出資料分析的思維，以常識去推理，你就知道兩者根本沒有聯絡，唯一的契合點在於「夏天天氣熱」，冰激凌的銷量會因此上公升，下水游泳的人也會因此增多，自然會有更多溺水事件發生。

資料是客觀的、理智的，但人是經驗主義者，更善於用邏輯去認識和判斷事物，資料的絕對客觀性，往往會把我們被拖入單維思考的沼澤裡。

就像電影《流浪地球》的片段：以色列科學家提出點燃木星的想法，被空間站的人工智慧莫斯否決。道理很簡單，莫斯作為人工智慧，是絕對理性的化身，它經過周密的科學計算後得出的結論表明：這個方案成功的概率為零，但它忽略了人類是具有感情的生物（或許是故意忽略），衝動和情感能突破理性的底線，做出人工智慧不能理解的行為。

簡而言之，用空間站撞擊木星這種看上去不合理的感性行為，也許恰恰不在莫斯的資料分析範圍內。

電影雖然是電影，但它能對映現實。許多在人類看來再正常不過的邏輯思維，卻是冰冷傲慢的資料分析的盲區，這本質其實是單維思考和多維思考、客觀事實和主觀邏輯的衝突。資料可以輔助你思考，但它不能代替你思考，千萬不要患上唯資料論的怪病，在認識事物的時候一定要問問自己：該相信邏輯還是該相信資料？

如何避免資料說謊

通過上面的案例我們可以知道，資料是客觀產生的，它只能反映問題，不會主動撒謊，真正說謊的**有三個「人」：

資料的真實性

解決的方法，第一件要預防資料生病，就是辨別資料可信度（真實性）。簡單來說，通常要遵循兩個原則：越接近第一手的資料越真實，採集的樣本越全面越可信。

例如網際網路產品經理常常更關心資料分析的結論，而忽視了原始資料的**和真實性，源頭如果出現問題，一切的分析都是徒勞的。如果你更關心渠道資料的精準度，可以使用 openinstall 進行渠道**歸因統計和活動推廣效果監測， openinstall 在渠道資料精準度上還是比較專業的。

2. 利用資料的目的

我們要明白統計資料的真實價值：資料是用來揭示事物規律，進而解決問題、創造未來的。如果結論本身已經客觀存在，你用再多的資料也無法讓結論變得更加正確，如果有人想要找到某個證據（資料）來論證觀點，方法多的是，早晚能夠找到。

讓資料來回答問題，然後從這些資料中創造更多的可能，這才是資料存在的現實意義，也是用來辨別哪些人在利用資料說謊的方法。

3. 解讀出現偏差

要善用常識性的思維和多個角度去看待客觀事物的發展，既認識到資料和統計學的力量，也要了解它的侷限性。當然，這也需要我們有基礎的數理科統計知識儲備。

資料和模型只是人們用來總結改進的方法，實踐才是真理，如果想要更深層次的解讀資料背後的意義，就要自己多去挖掘和實踐。

總結

真實深度的資料在工作中是非常有參考價值的，尤其能幫助我們建立分析框架，彌補思維漏洞。要知道，資料並不能代替分析人員做決定，獲取真實資料、善於運用資料、識破資料**，是需要長期培養和掌握的技能。

統計資料也說謊？如何跳出資料分析盲區

機器學習開放專案 NBA統計資料分析

機器學習開放專案 NBA統計資料分析

分組統計資料

統計資料也說謊？如何跳出資料分析盲區

機器學習開放專案 NBA統計資料分析

機器學習開放專案 NBA統計資料分析

分組統計資料

相關推薦