資料探勘第一課(學習規劃)

2021-09-11 08:00:38 字數 1459 閱讀 3396

1、資料探勘能夠解決什麼樣的問題?

資料探勘可以實現分類,聚類,關聯和**,從而將商業運營問題轉化為大資料探勘問題

2、常見的分類方法

決策樹、貝葉斯、knn、支援向量機、神經網路和邏輯回歸等

3、常見的聚類演算法

例如劃分聚類、層次聚類、密度聚類、網格聚類、基於模型聚類等

4、常見的關聯分析演算法

aprior演算法、carma演算法,序列演算法等

5、常見的**演算法

簡單線性回歸分析、多重線性回歸分析、時間序列等

6、實現資料探勘的工具

第一層級:達到理解入門層次,了解統計學和資料庫即可。

第二層級:達到初級職場應用層次,資料庫+統計學+spss(也可以是spss代替軟體)

第三層級:達到中級職場應用層次,sas或r

第四層級:達到資料探勘師層次,sas或r+python(或其他程式語言)

7、用python學習大資料探勘

(1)pandas庫的操作

panda是資料分析特別重要的乙個庫,我們要掌握以下三點:

pandas 分組計算;

pandas 索引與多重索引;

索引比較難,但是卻是非常重要的

pandas 多表操作與資料透視表

(2)numpy數值計算

numpy資料計算主要應用是在資料探勘,對於以後的機器學習,深度學習,這也是乙個必須掌握的庫,我們要掌握以下內容:

numpy array理解;

陣列索引操作;

陣列計算;

broadcasting(線性代數裡面的知識)

(3)資料視覺化-matplotlib與seaborn

matplotib語法

python最基本的視覺化工具就是matplotlib。咋一看matplotlib與matlib有點像,要搞清楚二者的關係是什麼,這樣學習起來才會比較輕鬆。

seaborn的使用

seaborn是乙個非常漂亮的視覺化工具

pandas繪圖功能

前面說過pandas是做資料分析的,但它也提供了一些繪圖的api。

(4)資料探勘入門

這部分是最難也是最有意思的一部分,要掌握以下幾個部分:

機器學習的定義

在這裡跟資料探勘先不做區別

代價函式的定義

train/test/validate

overfitting的定義與避免方法

(5)資料探勘演算法

資料探勘發展到現在,演算法已經非常多,下面只需掌握最簡單的,最核心的,最常用的演算法:

最小二乘演算法;

梯度下降;

向量化;

極大似然估計;

logistic regression;

decision tree;

randomforesr;

xgboost;

(6)資料探勘實戰

通過機器學習裡面最著名的庫scikit-learn來進行模型的理解。

基礎動態規劃第一課

今天資訊學瀟湘館第一次開張,館主也挺高興的,館主其實也是只蒟蒻,寫部落格只是為了與大家分享收穫並反思總結,以後還望大家多關注我資訊學瀟湘館哦,好了,閒話少說,進入正題!動態規劃這一章節對於很多入門的oier有點苦惱,但是熟練後就會比較輕鬆,當然不是一節課能講清楚地,想博主當年可是花了老大的盡呢,動態...

機器學習第一課

過擬合就是,通過訓練集進行訓練的時候,模型學習了太多的背景雜訊,讓模型的複雜度高於了真實模型 比如看到齒距型的葉子,就覺得不是葉子 欠擬合是指,模型在訓練集上進行學習的時候,效果就不是很好,沒有充分學習到其中的資訊量,複雜度低於真實模型,得到的模型泛化能力差 比如看到綠色,就覺得是葉子 模型評估指標...

python學習第一課

1.單行注釋 2.或 多行注釋運算子的型別運算子的優先順序運算子tips 參考變數型別 算術運算子 print 1 1 2,加 print 2 1 1,減 print 3 4 12,乘 print 3 4 0.75,除 print 3 4 0,整除 地板除 print 3 4 3,取餘 print ...