R語言資料探勘資料

2021-07-10 07:11:33 字數 1090 閱讀 6896

,包含理論知識與rpart包例項。​

​,包含演算法的自行實現,以及rweka包的c4.5演算法、tree包的cart演算法。

離散選擇模型大師kenneth train的個人主頁,提供了matlab、r和gauss的源**。個人推薦r**中的rsghb包,採用的估計方法是hierarchical bayes演算法,相比傳統的maximum simulated likelihood方法而言能夠有效地規避最大化可能帶來singular問題。rsghb包讓使用者自定義likelihood函式,因此非常靈活,可用於估計邏輯回歸、multinomial logit、nested logit、mixed logit、latent class、ordered logit/probit等模型。

主要函式dohb(likelihood, choicedata, control): likelihood為使用者自定義函式,用於計算每個observation的概率,計算時使用的資料格式隨意,可以是乙個observation一行,也可以是乙個alternative一行,使用者只要保證能得到正確的likelihood即可;choicedata,需要提供兩個資訊,乙個是observationid,可以是複合型的,即使用者id+choice situation,另乙個是該observation對應的選擇結果;control是mcmc過程的控制引數,包括模型名稱、warm up iteration次數、收斂後sampling次數等。

對邏輯回歸的原理進行了比較簡單的介紹,包含r語言mlogit包和nnet包中multinorm的應用。

​​​​深度學習大師andrew ng的課程,講述了線性回歸、邏輯回歸和正則項的基本知識,對梯度下降法、牛頓法的講解深入淺出,並提供了matlab源**。r**的實現版本請參考本部落格的相應文章。

系統地介紹了經典的極大似然估計方法,包括牛頓法、擬牛頓法(dfp、bfgs)、l-bfgs演算法。

應用map-reduce並行化邏輯回歸

《R語言資料探勘》 1 3 資料探勘

1.3 資料探勘 資料探勘就是在資料中發現乙個模型,它也稱為探索性資料分析,即從資料中發現有用的 有效的 意想不到的且可以理解的知識。有些目標與其他科學,如統計學 人工智慧 機器學習和模式識別是相同的。在大多數情況下,資料探勘通常被視為乙個演算法問題。聚類 分類 關聯規則學習 異常檢測 回歸和總結都...

R語言資料探勘之資料探索

資料質量分析是資料預處理的前提,是資料探勘分析結論有效性和準確性的基礎,其主要任務是檢查原始資料中是否存在髒資料,髒資料一般是指不符合要求,以及不能直接進行相應分析的資料。在常見的資料探勘工作中,髒資料主要值缺失值和異常值。本專場重點介紹了缺失值的判斷 缺失值模式探索 缺失值處理及異常值判斷的常用方...

《R語言資料探勘》 1 12 資料整合

1.12 資料整合 資料整合將多個資料來源中的資料合併,形成乙個一致的資料儲存。其常見的問題如下 異構資料 這沒有普遍的解決方案。不同的定義 different definition 這是內在的,即相同的資料具有不同的定義,如不同的資料庫模式。時間一致性 這可以檢查資料是否在相同的時間段收集。舊資料...