DC學院學習筆記(十五) 驗證型資料分析

2021-09-21 11:36:20 字數 2216 閱讀 6186

1.隨機變數:是試驗結果的函式,是定義在樣本空間$\omega$上的實值函式:$x=x(\omega)$,隨機變數一般用大寫拉丁字母或小寫希臘字母來表示

2.概率分布

關於隨機變數,有乙個非常值得關心的特性就是概率分布

概率:是乙個在0-1之間的實數,度量隨機事件發生的可能性,通常用於來量化某些不確定性命題

概率分布:在概率的基礎上,乙個隨機變數所有的可能取值加上它取某乙個值的概率,比如在投擲硬幣的事件中,正反面的取值的概率分布就就是正面0.5,反面0.5

3.離散隨機變數

定義:隨機變數僅能取有限個或可列個值

4.連續隨機變數

定義:隨機變數的可能取值充滿數軸上的乙個區間,有無限個可能取值

如正態分佈的曲線呈現乙個鐘型,也稱為bell,由兩個引數:均值(最高點在橫軸的哪個位置)、方差(曲線的方差)確定,和z檢驗密切相關

假設檢驗是根據資料樣本所提供的證據,肯定或否定有關總體的宣告

假設檢驗一般分為三步

來自於一位統計學家的女同事可以分辨奶茶是先加入牛奶還是茶的事例

1.零假設:女同事不能分辨;備擇假設:女同事可以分辨

2.假設檢驗方法:讓女同事連續判斷8杯不同的奶茶

3.測試統計量:女同事判斷正確的次數

4.結論:假設閾值設定為5%,在零假設的前提下,8盃全猜對的概率小於5%,拒絕零假設

1.單樣本檢驗:針對乙個樣本空間裡的一些統計量做單樣本檢驗,常用的有單樣本z檢驗,t檢驗

2.雙樣本檢驗:針對兩個不同的樣本空間的某一類統計資料做雙樣本檢驗,常用的有雙樣本t檢驗

,其中$\sigma$為方差,$\mu$為平均值

#零假設:復旦大學男生平均身高175cm

#備擇假設:復旦大學男生平均身高不為175cm

#需要先構造乙個平均值為175,標準差為5,服從正態分佈的樣本x,樣本量為100(你也可以嘗試構造平均值為180,標準差為2,服從正態分佈的樣本,看看使用z檢驗的得分區別)

import numpy

x=numpy.random.normal(175,5,100).round(1)

#使用z檢驗計算pval

import statsmodels.stats.weightstats

z,pval = statsmodels.stats.weightstats.ztest(x,value=175)

print(pval)

#直接返回的pval,即為p值可以用於判斷零假設是否成立

0.235448153111
看來平均值還是很接近175的,那麼下面我們可以看一下真實的平均值:

import numpy as np

np.mean(x)

174.45500000000001
ok,果然沒錯!

#零假設:復旦大學男生平均身高175cm

#備擇假設:復旦大學男生平均身高不為175cm

#使用t檢驗計算pval

import scipy.stats

t,pval=scipy.stats.ttest_1samp(x,popmean=175)#這裡的x也需要事先構造

#直接返回的pval,即為p值可以用於判斷零假設是否成立

print (pval)

0.238287606815
可以看出來跟單樣本z檢驗的結果很接近,但是略高於(原因可以在兩者的影象對比中看出來:t檢驗的邊界情況的概率略高於z檢驗

#零假設:復旦大學和上海交大男生平均身高一樣

#備擇假設:復旦大學和上海交大男生平均身高不一樣

#雙樣本檢驗用到了scipy包的另乙個函ttest_ind

#注意,x1,x2需要事先自行建立

t,pval=scipy.stats.ttest_ind(x1,x2)

#直接返回的pval,即為p值可以用於判斷零假設是否成立

DC學院學習筆記(十一) 資料預處理 資料清理

終於到了資料儲存與預處理的最後一講了,感覺講得還不錯!下面來看看資料的預處理吧!官方文件 pandas速查手冊中文版 seaborn是基於matplotlib的繪相簿,可以製作更多更美觀的圖形,如example gallery中也可以看到很多關於影象的示例。這個繪相簿可以很好地輔助我們對資料進行第一...

Swift學習筆記 三十五 泛型 下

定義乙個協議時,宣告乙個或多個關聯型別作為協議定義的一部分將會非常有用。關聯型別為協議中的某個型別提供 乙個佔位 符名稱,其代表的實際型別在協議被遵循時才會被指定。關聯型別通過 associatedtype 關鍵字來指定。下 例子定義 乙個 container 協議,該協議定義了乙個關聯型別 ite...

學習筆記 字元型資料

字元型資料 字元常量 用單引號括起來的字元,如 a d 注 區分大小寫 如果把字元型資料用整型的輸出方式輸出,將輸出其ascii碼值,如果把字元型資料用來做整型運算,將用其ascii碼值進行運算。示例 include include include 這個程式用來測試字元型資料和整型資料的轉換輸出 i...