數學模型正態分佈檢驗

概率密度分布曲線表示式為：

f (x

)=12

πσex

p−(x

−μ)2

2σ2f(x)=\fracσ}exp^}

f(x)=2

πσ1

exp

−2σ2

(x−μ

)2下面以房屋的評分系統資料作為說明,提取碼：lyhx

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcparams['font.sans-serif']=['simhei']
plt.rcparams['axes.unicode_minus'] = false

讀取資料：

d = pd.read_csv("~\kingcountryhomeprice\\train.csv")

設定分箱的數目：

bins_num = 20

畫出頻數圖：

plt.hist(x = d['rating'], bins=bins_num, edgecolor='black')
plt.title('房屋評分系統對房屋的總體評分')
plt.show()

基本資訊描述：

# 觀察的describe
print('--------基本資訊------')
print(d['rating'].describe())

理論散點和實際正態分佈曲線圖：

mean_rating = 7.664
sigma = np.std(d['rating'])

描繪正態分佈曲線：

# 描繪正態分佈曲線
def normfun(x, mu, sigma):
pdf = np.exp(-(x-mu)**2/(2*sigma**2))/(sigma*np.sqrt(2*np.pi))
return pdf

對打分的頻數對應排布和進行排序

y_scatter = 
for i in d['rating'].unique():

x_scatter = list(d['rating'].unique())

x = np.arange(3, 13, 0.0001)  # 步長越小，生成的數目就越大
從上圖看，資料是不符合正態分佈的，但為了更好地分析結果，我們還要用累計分布圖和qq圖進行檢驗畫累計分布圖：
churn_data = pd.dataframe([x_scatter, y_scatter])
# 對資料進行轉置
churn_data = churn_data.t
churn_data.columns = ['value', 'prob']
# 按照數值大小進行排序，然後求出累積圖
觀察累計分布曲線圖，會發現資料也不嚴格的符合正態分佈的累計分布圖qq圖
由影象可知，資料概率分布曲線和實際分布點偏離嚴重，接著進行[k-s][2]p值檢驗
from scipy import stats
import numpy as np
stats.kstest(churn_data['prob'], 'norm', (mean_rating, sigma))
# 最後得到檢驗p值小於，排除h1假設，樣本資料不符合正態分佈
kstestresult(statistic=0.9999999996682792, pvalue=1.0703583290996503e-104)
最後的p值遠遠小於0.05，我們可以拒絕原假設。
 何為數學模型
當我們考察乙個物理問題的解答時，十有 能夠就其中科學貢獻部分和數學貢獻部分劃出一道 清晰的界線。科學家在觀察和實驗的基礎上，作一 些簡潔性與解釋有效性的一般性考慮，建立一種理 論。數學家，或者做數學的科學家，則研究理論的 純粹邏輯結果。有時候，這些情形是常規計算的結 果，常規計算所預言的現象正是理論...
數學模型型別
線性規劃，非線性規劃，整數規劃，多目標規劃，動態規劃 層次分析法，模糊綜合評價，熵值法，topsis法，資料報絡分析，秩和比法，灰色關聯分析 回歸擬合，灰色 馬爾可夫 時間序列分析 微分方程模型，差分方程模型，元胞自動機，排隊論，蒙特卡羅隨機模擬 最短路徑，最小生成樹，最小費用最大流，指派問題，旅行...
數學模型 稱重問題
兩類稱重問題 一 給定砝碼，可以稱多少種不同的質量。二 怎麼安排使得可以稱重的次數最少。一 砝碼個數 用天平稱量物體質量，方法是1.乙個秤盤放物體，另乙個秤盤放砝碼。這對應著二進位制思想。2.乙個秤盤放物體，兩個秤盤都可以放砝碼，二者的差對應著物品質量。這對應著三進製的思想。1.二進位制思想 將稱量...

數學模型 正態分佈檢驗

何為數學模型

數學模型型別

數學模型 稱重問題

相關推薦

數學模型正態分佈檢驗

數學模型稱重問題