如何快速學習大資料探勘分析(個人觀點)

2021-09-20 08:53:17 字數 2631 閱讀 7200

本文梳理了學習大資料探勘分析的思路和步驟,為大家提供了一些參考,希望能對大家有所幫助。

最近,很多人都諮詢過,想學大資料,但不知道怎麼開始,在**開始學習,需要學什麼東西?對於初學者來說,學習大資料探勘分析的邏輯是什麼?本文從0開始梳理如何學習大資料探勘分析和學習步驟,並給出乙個學習建議。

希望可以幫助到大家

很多人認為資料探勘需要掌握複雜、深刻的演算法,掌握資料探勘技術和分析技術是很有必要的。如果你鑽研複雜的演算法和技術開發,你只會讓自己發瘋,而且會越來越難。在公司的實際工作中,最好的大資料探勘工程師必須是最熟悉和理解的人。對於大資料探勘的學習,筆者認為學習資料探勘必須結合實際的業務背景和案例背景進行研究,這是一種面向問題的學習方法。因此,一般來說,大資料探勘分析的經典案例如下:

**使用者在下一段時間內是否會丟失或丟失。

該公司做了乙個**活動來**活動的效果以及使用者如何接受它。

評估使用者的信用度。

細分現有客戶市場,哪些客戶是目標客戶?

產品投放市場後,使用者轉換率和哪種運營策略最有效?

運營已經做了大量的工作,公司資源也投入了很多,如何提高產品投入產出比;

有些使用者購買大量商品,哪些商品同時購買。

**產品在未來一年的銷售額和收入。

大資料探勘需要將上述類似的業務運作問題轉化為資料探勘問題。

首先,如何將業務運營問題轉化為大資料探勘問題。

所以,問題是,我們應該如何將上述業務操作轉化為資料探勘問題?我們可以將資料探勘問題細分為四類:分類、聚類、關聯和**。

1、分類問題

使用者的流失率、**活動的響應和使用者度的評價屬於資料探勘的分類問題。我們需要掌握分類的特點,知道什麼是監督學習,掌握常用的分類方法:決策樹、拜厄斯、knn、支援向量機、神經網路和logistic回歸。

2,聚類問題

細分市場和客戶群細分屬於資料探勘的聚類問題。我們需要掌握聚類的特點,了解無監督學習,理解常用的聚類演算法,如分割槽聚類、層次聚類、密度聚類、網格聚類、模型聚類等。

三。相關問題

交叉銷售與相關問題相關,關聯分析也被稱為購物籃分析。我們需要掌握常用的關聯分析演算法:aprior演算法、carma演算法、序列演算法等。

4、**問題

我們應該掌握簡單的線性回歸分析、多元線性回歸分析、時間序列等。

二。你用什麼工具做大資料探勘?

有很多任務具和方法來實現資料探勘,如spss、sas、python、r等等,但是我們需要掌握什麼或掌握什麼來學習資料探勘?這取決於你在做什麼,你想去**。

第一層次:達到理解水平

理解統計和資料庫。

二級:達到初級職場應用水平

資料庫+統計+ spss(也可以是spss而不是軟體)。

第**:達到中層應用水平

sas或r

第四級:達到資料探勘的劃分層次

sas或r+python(或其他程式語言)

三。如何使用python學習大資料探勘

只要我們能解決實際問題,我們用什麼工具來學習資料探勘並不重要。python是這裡首先要做的事情。如何使用python來學習資料探勘?關於python你需要知道什麼?

1大熊貓圖書館的運作

熊貓是乙個非常重要的資料分析資料庫。我們要掌握以下三點:

熊貓分組計算;

大熊貓指數和多重指數;

這個索引很難,但是很重要。

熊貓多桌經營與pivottable

2元數值計算

資料計算是資料探勘的主要應用,對於未來的機器學習、深入的學習來說,這也是乙個必須掌握的庫,我們必須掌握以下幾點:

麻木陣列的理解;

陣列索引操作;

陣列計算;

廣播(線性代數知識)

三。資料視覺化- matpultlib和海運

mat普羅蒂布文法

python最基本的視覺化工具是matplotlib。讓我們看看matmattlib有點像matlabb。我們需要弄清楚兩者之間的關係,這樣就更容易學了。

海運的使用

seabn是乙個非常漂亮的視覺化工具。

熊貓繪圖功能

正如我之前所說的,熊貓正在做資料分析,但它也提供了一些繪圖的api。

4。資料探勘導論

這部分是最困難和最有趣的部分。我們應該掌握以下幾個部分:

機器學習的定義

資料探勘並沒有什麼區別。

成本函式的定義

培訓/測試/驗證

過擬合的定義與避免

5。資料探勘演算法

隨著資料探勘的發展,有很多演算法。接下來,我們需要掌握最簡單、最核心和最常用的演算法。

最小二乘演算法;

梯度下降;

向量化;

極大似然估計;

邏輯回歸;

決策樹;

randomforesr;

xgboost;

6、資料探勘實戰

通過機器學習,最著名的圖書館scikit學習了解模型。

以上是大資料探勘的學習邏輯的邏輯。然而,這僅僅是個開始,在資料探勘和資料科學家的道路上,我們必須學習文字處理和自然語言知識、linux和火花知識、深入的學習知識等等,並且我們需要對資料探勘保持持續的興趣。

如何快速學習大資料探勘分析(個人觀點)

本文梳理了學習大資料探勘分析的思路和步驟,為大家提供了一些參考,希望能對大家有所幫助。最近,很多人都諮詢過,想學大資料,但不知道怎麼開始,在 開始學習,需要學什麼東西?對於初學者來說,學習大資料探勘分析的邏輯是什麼?本文從0開始梳理如何學習大資料探勘分析和學習步驟,並給出乙個學習建議。希望可以幫助到...

大資料 資料分析 資料探勘

在大資料領域裡,經常會看到例如資料探勘 olap 資料分析等等的專業詞彙。如果僅僅從字面上,我們很難說清楚每個詞彙的意義和差別。大講台老師通過一些大資料在高校應用的例子,來為大家說明白 資料探勘 大資料 olap 資料統計的區別。一 資料分析 資料分析是乙個大的概念,理論上任何對資料進行計算 處理從...

大資料探勘分析與應用

import time name number 2017 xx blessing 2020年注定不尋常,今年我的目標是.右鍵 選擇在編終端中執行python檔案,執行結果如下 1 變數,語句,縮排,注釋 變數命名規則 語句 縮排 注釋 輸入與輸出操作 1 資料型別 1 標準資料型別 number 數...