python資料分析與機器學習 使用者流失預警

2021-08-16 01:27:39 字數 1221 閱讀 2266

本文針對某**遊戲使用者資料,運用python、pandas、matplotlib及sklearn,對初始資料進行資料清理,並結合機器學習的一些演算法,建立關於使用者流失預警的簡單模型,重點是模型評估指標,可作為入門機器學習的小案例。

1.載入資料,檢視資料特徵,分析特徵。

2.刪除無用特徵,處理字元型特徵及樣本標籤(可參考貸款申請利潤最大化),將資料標準化,消除量綱對機器學習建模的影響,這裡使用sklearn自帶的資料標準化函式。

3.由於本案例樣本數目有限,建模時採用交叉驗證的方式,首先建立模型訓練函式,便於後期更換機器學習演算法時直接呼叫。

4.接下來考慮模型效果評估指標,一般情況下採取precision進行模型效果評估,但考慮本案例是使用者流失預警,其需求為:對於流失使用者,我們**的準確率應該更高才更合適,即考慮召回率recall,故引用混淆矩陣。

5.下面是運用svm,rf,knn演算法訓練出的模型的精度,召回率以及相應的混淆矩陣。

總結:以上結果顯示,random forest演算法訓練的模型精度以及召回率都相對較好,可在此演算法的基礎上對模型進行調優改進。調優方式可參考上篇貸款申請利潤最大化,如通過上取樣均衡樣本數量,增加新的特徵等。

Python與R進行機器學習和資料分析

機器學習和資料分析是開源幾乎已成為創新新工具的事實上許可的兩個領域。python和r語言都開發了強大的開源工具和庫生態系統,可幫助任何技能水平的資料科學家更輕鬆地執行分析工作。機器學習和資料分析之間的區別有點不確定,但是主要思想是機器學習將 準確性優先於模型可解釋性,而資料分析則強調可解釋性和統計推...

機器學習基礎 資料分析

1 問題定義 2 資料獲取 3 資料預處理 4 資料分析與建模 5 資料視覺化及資料報告的撰寫 貢獻度分析又稱帕累託分析,它的原理是帕累託法則又稱2 8定律。即累積效應達80 的前幾個因素。用統計指針對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。1 集中趨勢度量 均值 中位數 眾數...

資料分析與機器學習學習筆記 聚類演算法

聚類演算法分屬與機器學習中的無監督學習型別,由於無監督學習大多是根據距離進行分類所以其準確性遠不及有監督學習,但是聚類演算法用於資料預處理還是有很大作用的。例如我們拿到乙個資料集後通過聚類演算法生成3個類別,在此基礎上將第一次分類產生的標籤用於接下來進一步的有監督學習 典型的stacking模型思想...