資料準確性和模型準確性

一、遇到了什麼問題

昨天在看文獻，關於**中國汽車保有量的。文獻中提到了乙個資料**，就是國家統計局每年都會（現在已經暫停）調查不同收入等級（八個等級）收入、人口、汽車擁有量的情況。通過這些資料進行簡單的計算就能得到不同收入等級群體的千人保有量情況。這個資料可以估算不同收入與千人保有量之間的函式關係（利用gompertz funciton模擬），然後再與收入分布曲線結合，兩者乘積求積分就可以得出中國的汽車保有量情況及其**。

這個想法本來是很簡單的，但是我在兩個方面糾結了很久，乙個是一直在思考收入分布曲線是否合理（這點在這個地方先暫且不講），另乙個就是一直在追問通過不同收入群體調查來估算全國層面的千人保有量是否合理。

我疑惑的地方主要是：這個資料是根據家庭戶數進行調查的，那麼也就是說人均收入情況是根據每戶的情況計算出來了。那麼我就開始糾結了，假如乙個家庭，男的年可支配是30萬，妻子是全職太太，還有乙個孩子，他們擁有一輛車，那麼這個家庭人均可支配收入是10萬。那麼就可以計算：人均可支配收入10萬的群體千人汽車保有量為：1/3*1000=333輛/千人（一家三口人擁有一輛車，那麼這個群體千人擁有量就是333輛。）。但是後來我又想，假如調查10萬個人，他們每人的年均可支配收入就是10萬元，然後逐一詢問每人是否擁有汽車，然後再去計算這個群體的千人保有量，這樣得出來的結果可能與以戶為單位得出來的結果會不一樣。

我因此在這個地方開始糾結了，就一直在想國家統計局調查的資料能否代表真實的情況，這樣就浪費了很多的時間了。其實後來想明白了，這就是乙個抽樣方法的問題。中國每個人都可以看成是乙個樣本，理論上這些樣本可以自由組合，然後估算全國的汽車擁有量情況。但是組合的方法肯定有合理與不合理之分，比如拿乙個千萬富翁跟另外九個窮光蛋進行組合，得出來的結果就是我國平均都是百萬富翁。

在此，我們就不去深究國家統計局這個調查用於保有量**是否合理性的問題了。

二、產生這個問題的原因

產生這個問題的原因就是：把資料準確性和模型準確性混為一談，沒有將他們區分。的確，結果的準確性取決於資料準確性和模型準確性，但是當資料準確性無法得到驗證，並且沒有其他資料來源的時候，我們將時間精力放在資料準確性上是划不來的，僅僅是為了內心中那一點點的安全感根是更是不值得。

三、獲得了哪些經驗

1、將資料準確性和模型準確性分開思考

我在思考的時候有個傾向，容易把模型和現實情況融合起來思考，一旦在思考模型的時候，就容易想到現實情況，就會想現實情況到底能不能滿足模型的情況。這樣思考起來非常費腦子，並且沒有意義。要記住，在思考模型的時候，不要想現實資料是怎樣的，思考模型的時候就按照最理想的情況進行思考。在將現實情況抽象到理論高度的時候，就僅僅站在理論層面進行思考，有可能現實情況跟理論情況不相符合，但是沒有關係。這一點一定要切記。

2、現實問題模型的思考

模型是什麼？模型是我們對觀測到的現實世界進行的數學抽象。請注意我用到的是「觀測到的」，也就是說我們用於是基於我們觀測的情況建立模型，然後通過模型去分析沒有觀測到的現象。

我在思考模型的時候有個不正確的傾向：總是會思考這個模型到底跟真實的世界是不是相匹配的。

這個思考有必要，但對於我來說沒有必要。對於我自己來說，對於這個問題我根本就無法得到答案——我怎麼去判斷跟現實世界是不是匹配呢？這個問題就交給專門搞科研的人就行了，我們要做的就是找權威的期刊，看到他們的文獻，然後會用就可以了。

資料準確性和模型準確性

如何保證日誌的準確性？

友盟統計準確性如何？

如何保證日誌的準確性？

資料準確性和模型準確性

如何保證日誌的準確性？

友盟統計準確性如何？

如何保證日誌的準確性？

相關推薦