kaggle比賽相關準備內容(更新中)

2021-09-02 02:03:51 字數 868 閱讀 5115

1.需要一點ml演算法的基礎的。

另外就是要會用程式語言和相應的第三方庫來實現演算法.

常用的有: python以及對應的庫numpy、scipy、scikit-learn(實現了ml的一些演算法,可以直接用)、theano(deeplearning的演算法包)。

r語言、weka 如果用到深度學習的演算法,cuda、caffe也可以用 總之,使用什麼程式語言、什麼平台、什麼第三方庫都無所謂,無論你用什麼方法,kaggle只需要你線上提交結果,線下你如何實現演算法是沒有限制的。

最好在linux下安裝 ,省很多麻煩!!

2.模組介紹

numpy:numpy系統是python的一種開源的數值計算擴充套件。這種工具可用來儲存和處理大型矩陣,比python自身的巢狀列表(nested list structure)結構要高效的多(該結構也可以用來表示矩陣(matrix))。

**pandas:**資料結構和分析

scipy:是python中科學計算程式的核心包,實現以下插值,積分,優化,影象處理等等,都是需要計算。

scikit-learn通過定義統一的python介面,實現了一系列有監督和無監督的學習演算法。

**matplotlib:**全面的2d / 3d繪圖,這個假期作社會實踐專案時用過,當時畫的直方圖。

theano:是乙個python庫,專門用於定義、優化、求值數學表示式,效率高,適用於多維陣列。特別適合做機器學習。一般來說,使用時需要安裝python和numpy.

資源**:1. 簡直不能太貼心,太喜歡了

Kaggle比賽入門指南

首先說,絕大部分的kaggle比賽是data mining dm 比賽 除少數是和discrete optimization還有computer vision cv 有關 最重要的是和machine learning ml 關係不大。這是很多人乙個誤區,往往希望在kaggle上學到很多ml的知識。k...

kaggle比賽之悟

一 模型與特徵哪個重要?參與sberbank russian housing market比賽,一開始使用sklearn的嶺回歸函式ridge 殘差值一直是0.37左右,然後同樣的特徵又使用了xgboost,殘差值降到了0.34左右,提高的還是挺顯著的。但是另外一些參賽選手,使用xgboost,殘差...

kaggle相關知識

kaggler 絕大多數都是用 python 和 r 這兩門語言的。首先簡單介紹一些關於 kaggle 比賽的知識 比賽通常持續 2 3 個月,每個隊伍每天可以提交的次數有限,通常為 5 次。比賽結束前一周是乙個 deadline,在這之後不能再組隊,也不能再新加入比賽。所以想要參加比賽請務必在這一...