數學模型 正態分佈檢驗

2021-10-05 14:47:23 字數 2901 閱讀 1903

概率密度分布曲線表示式為:

f (x

)=12

πσex

p−(x

−μ)2

2σ2f(x)=\fracσ}exp^}

f(x)=2

π​σ1

​exp

−2σ2

(x−μ

)2​下面以房屋的評分系統資料作為說明,提取碼:lyhx

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

plt.rcparams['font.sans-serif']=['simhei']

plt.rcparams['axes.unicode_minus'] = false

讀取資料

d = pd.read_csv("~\kingcountryhomeprice\\train.csv")
設定分箱的數目:

bins_num = 20
畫出頻數圖

plt.hist(x = d['rating'], bins=bins_num, edgecolor='black')

plt.title('房屋評分系統對房屋的總體評分')

plt.show()

基本資訊描述:

# 觀察的describe

print('--------基本資訊------')

print(d['rating'].describe())

理論散點和實際正態分佈曲線圖:

mean_rating = 7.664

sigma = np.std(d['rating'])

描繪正態分佈曲線:

# 描繪正態分佈曲線

def normfun(x, mu, sigma):

pdf = np.exp(-(x-mu)**2/(2*sigma**2))/(sigma*np.sqrt(2*np.pi))

return pdf

對打分的頻數對應排布和進行排序

y_scatter = 

for i in d['rating'].unique():

x_scatter = list(d['rating'].unique())
x = np.arange(3, 13, 0.0001)  # 步長越小,生成的數目就越大

從上圖看,資料是不符合正態分佈的,但為了更好地分析結果,我們還要用累計分布圖和qq圖進行檢驗畫累計分布圖:

churn_data = pd.dataframe([x_scatter, y_scatter])

# 對資料進行轉置

churn_data = churn_data.t

churn_data.columns = ['value', 'prob']

# 按照數值大小進行排序,然後求出累積圖

觀察累計分布曲線圖,會發現資料也不嚴格的符合正態分佈的累計分布圖qq圖

由影象可知,資料概率分布曲線和實際分布點偏離嚴重,接著進行[k-s][2]p值檢驗

from scipy import stats

import numpy as np

stats.kstest(churn_data['prob'], 'norm', (mean_rating, sigma))

# 最後得到檢驗p值小於,排除h1假設,樣本資料不符合正態分佈

kstestresult(statistic=0.9999999996682792, pvalue=1.0703583290996503e-104)

最後的p值遠遠小於0.05,我們可以拒絕原假設。

何為數學模型

當我們考察乙個物理問題的解答時,十有 能夠就其中科學貢獻部分和數學貢獻部分劃出一道 清晰的界線。科學家在觀察和實驗的基礎上,作一 些簡潔性與解釋有效性的一般性考慮,建立一種理 論。數學家,或者做數學的科學家,則研究理論的 純粹邏輯結果。有時候,這些情形是常規計算的結 果,常規計算所預言的現象正是理論...

數學模型型別

線性規劃,非線性規劃,整數規劃,多目標規劃,動態規劃 層次分析法,模糊綜合評價,熵值法,topsis法,資料報絡分析,秩和比法,灰色關聯分析 回歸擬合,灰色 馬爾可夫 時間序列分析 微分方程模型,差分方程模型,元胞自動機,排隊論,蒙特卡羅隨機模擬 最短路徑,最小生成樹,最小費用最大流,指派問題,旅行...

數學模型 稱重問題

兩類稱重問題 一 給定砝碼,可以稱多少種不同的質量。二 怎麼安排使得可以稱重的次數最少。一 砝碼個數 用天平稱量物體質量,方法是1.乙個秤盤放物體,另乙個秤盤放砝碼。這對應著二進位制思想。2.乙個秤盤放物體,兩個秤盤都可以放砝碼,二者的差對應著物品質量。這對應著三進製的思想。1.二進位制思想 將稱量...