不負責翻譯 如何讓假資料看起來更有意義

2022-03-07 15:58:20 字數 1516 閱讀 9394

不負責翻譯,如有錯誤概不負責,很多統計概率知識可能翻譯有誤。

原文出處:

一.千萬不要透露原始資料

如果你想用你的資料去忽悠別人,只要把結論告訴他們就行了,千萬不要把你的原始資料也給他們。如果說你的原始資料需要一定的訪問許可權或者包含一些商業機密那就更好了。當你試圖忽悠別人的時候,你最不願意看到就是允許別人去分析甚至質疑你的結論。

二. 不要透露你的分析方法

資料的**是哪?你是如何收集資料的?你是如何對資料進行取樣的?當你遇到這些問題時,不管你怎麼做的,都不要透露這些資訊!如果你或者你的資料**在收集或者取樣的時候犯了一些錯誤,那麼有一些討厭的人就會開始質疑你的結論。你儘管放心的什麼都不要透露,人們會假設你知道你在幹什麼的。

三. 不要包含置信區間

置信區間很容易讓人覺得你的資料報含一些潛在的不確定性,這很可能會影響你結論的堅定性。

下面那個聽上去更好?

你的目標是讓你的資料聽上去富有意義,給出乙個確定的數字,即使是錯的。

四. 多用圖表

很明顯在圖表中要遵循原則3,不要在你的圖表中放置信區間的值。

五. 不要質疑你自己的資料

你可能是你自己最大的敵人。有時候你的資料會讓你懷疑你的方法和分析。這裡有一些小提示,當你遇到這種情況的時候可以幫助你:

該做:推敲你的方法知道它的結論是你想要得或者是你覺得人們會相信的。

不該做:不要將你分析的一些潛在的注意事項列出來,這只會疑惑你的讀者。

該做:你要表現的像在完成分析之前就知道分析的結果,不要讓自己看上去像事後諸葛亮。

不該做:不要質疑回歸分析的結果,它們肯定是對的。

腳注:

1: 這是乙個二項式比率置信區間,它和連續資料的置信區間有一點不同。但是,我認為由於a/b測試在創業人群中的流行,它和創業人群很有關係。資料來自abba,它是乙個開源的a/b測試工具(透露一下,我曾經在開發這個工具的公司工作過),鏈結頁面裡解釋了abba使用的方法。

後記

如果你沒領會到這是乙個玩笑,我不建議去做上面的這些事情。我建議的是,當你作為乙個消費別人提供的資訊時,你要報著乙個懷疑的心態去看資料,並且看看是不是用了文章中的這些手法或者其他的手法。如果你是分析資料的人,請尊重你的讀者,你應該提供必要的資訊去驗證你自己的結論。

當你遇到一些資訊試圖去表現的更吸引人而不是更加準確的時候,你就要提高警惕了。講乙個有趣而又沒有破綻的故事的最好辦法就是使用假資料。「假」對於你來說可能是乙個很重的詞,但是我認為用這個詞很公平。不管統計資料在數學上是否嚴謹,不管是出於無知還是出於惡意,假的就是假的。

»hacker news上的討論。

網傳Windows斷供中國 微軟概不負責 假的!

今天網上熱傳,微軟更新了官方服務協議,其中部分條款被解讀為如果微軟對中國斷供windows系統,無需承擔任何責任,在當前大背景下更是引發各種憂慮。經查證,這是乙個誤會。微軟近日確實向使用者傳送了服務協議更新的郵件提醒,其中被誤讀的條款來自 責任限制 簽約實體 法律選擇和爭議解決地 章節 b.對於因超...

如何使用faker建立假資料

有些時候我們需要一些假資料來測試,在python中有一款非常好用的包,faker,可以滿足這類的需求。專案位址 pip install faker 要建立假資料,需要先有乙個faker例項 from faker import faker fake faker 然後呼叫方法即可 fake.name k...

如何生成比較像樣的假資料

問題 在做專案的時候經常會遇到這樣的問題 方案 其中要生成大量的沒有意義的測試資料,以便進行壓力測試,這個資料是最好生成的,只需要寫幾條sql語句,多執行幾次即可。如果不想寫sql語句,也可以使用資料生成工具 visualstudio powerdesigner datafactory等都可以使用。...