《看穿一切數字的統計學西內啟著（日）》

神經網路與回歸模型的應用區別

文字挖掘-文獻計量學

歸納與演繹

頻率派與貝葉斯派

費舍爾：

達爾文-高爾頓

達爾文的表弟，基於演化論提出優生學。（現如今被禁止，不僅因為優生學不正確，而且這一理念曾經是納粹的信念，導致「劣質人種」等分級以及大**清楚事件等）之後在高爾頓及其學生在調研及利用回歸分析夫妻身高與孩子身高的試驗中，自己得出的結論與優生學矛盾。但是，實際上當時他們使用的回歸方法的結果也是不可靠的，因為樣本量太少，隨機性很大。

辛普森悖論這種現象違背了我們的直覺：辛普森悖論得出的結果總是隱含了潛伏變數，即某種前提，當我們想當然的忽略了某種變數，我們的直覺就會將「值與量」兩個維度的資料，歸納成了「值」乙個維度的資料，並進行了合併。

例子

假如有每週運動小時數與兩組患者 (50 歲以下和 50 歲以上患者)患病風險的資料

運動小時數~患病風險

但是，當把所有年齡合併時

運動小時數~患病風險

原理：

資料中存在多個單獨分布的隱藏變數，不當拆分時就會造成辛普森悖論。這種隱藏變數被稱為潛伏變數，並且它們通常難以識別。而這種潛伏變數可能是由於取樣錯誤或者資料領域本身屬性造成的。

上面的例子中，因為年齡分組了，而年齡恰巧是乙個跟運動風險很相關的潛變數

如果繪製患病概率與年齡的關係，我們可以看到患者的年齡與疾病概率強烈正相關。

隨著患者年齡的增加，患病的風險增加。所以即使運動量相同，老年患者也比年輕患者更容易患病。

總結以上的例子，其中運動小時數~患病風險分組時候是合理的，因為年齡是潛變數，會對患病風險有很大影響，所以根據把對結果產生影響的其它條件保持一致性原則（即做好control，控制其它無關變數），需要將年齡分組再進一步分析運動小時數~患病風險的關係。

同理，想到了，生物學分析中，經常聽到有沒有控制基因表達量再去比較分析等，這就是暗含基因表達量跟研究的問題有很大相關，如果不控制表達量，就是不當拆分，會產生錯誤結論。（有沒有控制基因長度，有沒有控制處理時間長短等等）

解決方法

多元回歸分析，邏輯回歸

神經網路模型，裡面的過程及演算法等是黑匣子，我們沒法知道具體的計算過程，但是其能夠準確**結果。

傳統的回歸模型，雖然沒有神經網路那麼強大，但是能夠知道每個變數的係數等具體的計算過程，能夠對實際行動有些指導意義。

比如

市場調查中，利用來電頻率，對品牌的認可，店面整潔，商品**這4個變數**顧客的消費額度，指導店家展開活動吸引顧客提高收益。

① 回歸模型，可以得到比如來店頻率高的顧客消費額度高，店面整潔這個因素對**貢獻小等，那麼店家就可以開展吸引顧客來店的活動，來提高收益。

②而神經網路模型，利用一堆變數，能夠很準確的**顧客的消費額度，但是由於演算法是黑匣子，不知道哪些變數是起關鍵作用，或者起什麼作用，因此對實際應用指導意義較小。

③但是，在一些只需要**顧客可能購買的商品，事先發現可能退會的顧客等，神經網路**更準確，這時候作用就更大，我們不需要知道具體黑匣子的演算法，我們只需要知道最後**的結果就行。以**本身為目的，那麼神經網路更適合。在並非以**為目的，而是希望知道**模型指導今後應該怎麼做，回歸模型的作用可能更有效。

具體實際情況，具體分析，選擇合適的方法，事半功倍，不應該為了fancy而浪費時間及精力

初期的文獻計量學乙個關於莎士比亞和弗朗西斯-瓊斯的故事。

18世紀初，人們當時懷疑莎士比亞是不是真是存在的人還是乙個筆名。因為莎士比亞出身平民，但卻對貴族文化教養描寫的十分細緻，就懷疑是否是弗朗西斯-瓊斯的筆名（弗朗西斯-瓊斯，當時意味偉大的哲學家，也證明了歸納推理的重要性，是統計學家們最尊敬的人物之一，他的文學素養和教育程度都很高，有能力寫出莎士比亞戲曲）。就對兩者的文章進行文字分析，最後發現的確是不一樣。

語素分析，n元語法模型

演繹的代表牛頓力學理論（牛頓三大定理）

例子說明

如果投硬幣10次，全部是正面，那麼猜該硬幣是正常硬幣還是老千硬幣。

頻率學派的處理方式：

假設檢驗

假設是正常硬幣，那麼10次都是正面的概率，即p值=（0.5）^10=0.001

根據小概率事件不發生原則，顯然0.001的概率說明基本不可能出現，所以原假設不成立。

否定該硬幣是正常硬幣，接受該硬幣是老千硬幣。

貝葉斯學派的處理方式：

先有個先驗概率

那麼最後，是老千硬幣的概率為0.991，顯然猜測是老千硬幣

貝葉斯方法最早由一位叫貝葉斯的牧師所寫的**寫出。

事前概率對最終得到後驗概率的應影響很小，可以嘗試計算當先驗概率設定為0.9和0.1時看最後後驗概率的大小，最終後驗概率也是0.9243的概率是老千硬幣。

注意涉及「不允許出現錯誤或者需要保守判斷」的時候，不適合使用貝葉斯，比如是否應該認可新藥的使用等，因為一開始假設0.5，0.5的概率是對生命的不負責，這時候應該採取隨機對照試驗，或者積累資料採用頻率學派的假設檢驗。

《看穿一切數字的統計學西內啟著（日）》

西交應用統計學一

1與0，一切數字的神奇淵源

聊一聊統計學與資料探勘的區別（一）

《看穿一切數字的統計學 西內啟著（日）》

西交應用統計學 一

1與0，一切數字的神奇淵源

聊一聊統計學與資料探勘的區別（一）

相關推薦

《看穿一切數字的統計學西內啟著（日）》

西交應用統計學一