資料探勘 Task04筆記彙總

2021-10-04 10:09:10 字數 1129 閱讀 9109

1. 以下是常用的模型介紹

線性回歸模型:

決策樹模型:

gbdt模型:

xgboost模型:

lightgbm模型:

《機器學習》

《統計學習方法》

《python大戰機器學習》

《面向機器學習的特徵工程》

《資料科學家訪談錄》

3. 調整資料型別,可以減少資料在記憶體中占用的空間

4. 沒看懂= = 

'intercept:'+ str(model.intercept_)

sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=true)

5. 回歸分析的五個基本假設 

6. 線性回歸模型的截距(intercept)與權重(coef)

7. 對長尾分布的資料做了log(x+1)的變換後靠近正態分佈的形狀了,從而模型效果更好?

8. 平均絕對誤差計算 

9. 運用sklearn實現k折交叉驗證 

10. 真實業務和時間有關,所以採用前4個做訓練集,第5個做測試集會合理一點

11. pandas的reset_index(drop=true) 

drop為false則索引列會被還原為普通列,否則會丟失

12. 用簡單易懂的語言描述「過擬合 overfitting」?

模型複雜度與模型的泛化能力

正則化的直觀理解

13. 一般認為引數值小的模型比較簡單,能適應不同資料集,一定程度可以避免過擬合現象。也很好理解,當引數過大的時候,抗擾動能力自然變弱了

14 沒看懂「 l1正則化有助於生成乙個稀疏權值矩陣,進而可以用於特徵選擇。... 除此之外,決策樹通過資訊熵或gini指數選擇**節點時,優先選擇的**特徵也更加重要,這同樣是一種特徵選擇的方法。xgboost與lightgbm模型中的model_importance指標正是基於此計算的」

15.常用模型與線性模型進行效果比對:非線性模型用了 決策樹,隨機森林,梯度boosting,mlp

回歸,xgb回歸,lgbm回歸

16. numpy.ptp()最大值與最小值的差

動手學深度學習 Task07筆記彙總

演算法細節不是很感興趣,就看了看軌跡理解了一下 1.指數加權移動平均ema 2.adagrad 給各維度各自的學習率 沒用到ema 出現梯度消失的原因是自適應學習率分母的不斷累加使其存在最終趨於0的可能 3.rmsprop 利用ema解決了adagrad梯度消失的問題 4.adadelta 基於rm...

動手學深度學習 Task08筆記彙總

終於來到了我感興趣的東西,如何教會機器進 感分析。目標是通過給定的不定長文字序列輸出情緒類別,運用了預訓練的詞向量和多隱藏層的雙向rnn和cnn,是詞嵌入的下游應用。隨機改變樣本從而降低模型對屬性的依賴性,並且也可以擴大資料集規模。例如 翻轉 裁剪 變化顏色 亮度 對比度 跑合度 色調 以及以上各種...

MySql 04 筆記 索引

1 為什麼需要索引?索引的出現是為了提高資料查詢的效率 1 雜湊表 雜湊表是一種以鍵 值 key value 儲存資料的結構,只要輸入待查詢的值即key,就可以找到其對應的值即 value。雜湊的思路 把值放在陣列裡,用乙個雜湊函式把key換算成乙個確定的位置,然後把value放在陣列的這個位置 雜...