資料分析 建模評價

2021-10-23 22:18:29 字數 1479 閱讀 5910

模型搭建

模型評估

1、模型搭建

處理後的資料就是建模資料,下一步是選擇合適模型。模型選擇之前需要知道資料集最終是進行監督學習還是無監督學習。模型的選擇一方面是通過我們的任務來決定的,另一方面可以根據資料樣本量以及特徵的稀疏性來決定,開始嘗試使用乙個基本的模型來作為其baseline,進而再訓練其他模型做對比,最終選擇泛化能力或效能比較好的模型。

2、sklearn的演算法選擇路徑

3、模型評估

模型評估是為了知道模型的泛化能力。

交叉驗證(cross-validation)是一種評估泛化效能的統計學方法,它比單次劃分訓練集和測試集的方法更加穩定、全面。在交叉驗證中,資料被多次劃分,並且需要訓練多個模型。

最常用的交叉驗證是 k 折交叉驗證(k-fold cross-validation),其中 k 是由使用者指定的數字,通常取 5 或 10。

準確率(precision)度量的是被**為正例的樣本中有多少是真正的正例

召回率(recall)度量的是正類樣本中有多少被**為正類

f-分數是準確率與召回率的調和平均

4、繪製roc曲線

roc 曲線(接收者操作特徵曲線)是一種顯示分類模型在所有分類閾值下的效果的圖表。

1、python的seaborn庫

整體布局import seaborn as sns

sns.set_style(

"whitegrid"

)#橫座標有標線,縱座標沒有標線,背景白色

sns.set_style(

"darkgrid"

)#預設,橫縱座標都有標線,組成乙個乙個格仔,背景稍微深色

sns.set_style(

"dark"

)#背景稍微深色,沒有標線線

sns.set_style(

"white"

)#背景白色,沒有標線線

sns.set_style(

"ticks"

)#xy軸都有非常短的小刻度

sns.despine(offset=

30,left=

true

)#去掉上邊和右邊的軸線,offset=30表示距離軸線(x軸)的距離,left=true表示左邊的軸保留

plt.rcparams[

'font.sans-serif']=

['simhei'

]# 用來正常顯示中文標籤

plt.rcparams[

'axes.unicode_minus']=

false

# 用來正常顯示負號

plt.rcparams[

'figure.figsize']=

(10,6

)# 設定輸出大小

資料分析實踐 客戶流失判斷 資料建模

劃分資料集 前一篇介紹到資料集是不平衡資料集,這裡採用k折交叉驗證方法進行處理 劃分訓練集和驗證集 x data dummy.drop label axis 1 y train label map x train,x valid,y train,y valid train test split x,...

資料分析 ARIMA方法建模步驟總結

arima模型適用於非平穩時間序列資料,其中的i表示差分的次數,適當的差分可使原序列成為平穩序列後,再進行arima模型的建模。其建模步驟與arma模型類似,分為5個步驟 平穩 通過差分的手段,對非平穩時間序列資料進行平穩操作。定階 確定arima模型的階數p,q。估計 估計未知引數。檢驗 檢驗殘差...

資料分析5 建模和模型評估

處理完前面的資料我們就得到建模資料,下一步是選擇合適模型 在進行模型選擇之前我們需要先知道資料集最終是進行監督學習還是無監督學習 模型的選擇一方面是通過我們的任務來決定的。除了根據我們任務來選擇模型外,還可以根據資料樣本量以及特徵的稀疏性來決定 剛開始我們總是先嘗試使用乙個基本的模型來作為其base...