資料探勘學習之路 1 相關概念

2021-06-01 06:04:32 字數 1831 閱讀 3448

在同濟讀研期間,無意間選擇了資料倉儲和資料探勘作為研究方向,從此走上了漫漫bi之路。

研究生畢業以後,抵制了外企的**(因為無法做bi相關的專業工作),加入了上海電力下屬的it公司,從事電力營銷資料倉儲的建設,真正將知識轉化成生產力,自己也親身經歷如何實施大型資料倉儲,此後跳槽另一家民企,接觸了移動經營分析系統,對於資料倉儲、資料探勘的相關技術、工具等有了深入的了解,當初之所以情歸bi,更多的不是看重技術,而是看重它是和商業緊密相連的,如何幫助企業**未來的收入、利潤,降低庫存成本,挖掘潛在客戶價值,減少客戶流失率等bi應用,現在真正做的好的企業是鳳毛麟角,包括不缺錢的國企,我將在blog分享資料探勘的相關知識,bi 的學習路漫漫,吾將上下而求索!

今天內容主要是資料探勘的相關概念

1、資料探勘的定義

簡單來說,資料探勘是對資訊系統積累的大量歷史資料,通過相關演算法進行探索和分析的過程,目的是發現資料中隱藏的有用的模式和規律。目前資料探勘應用普遍是借助專業的資料探勘工具來實現,市場上主流的商用工具是sas、spss,開源的工具是weka等。

2、資料探勘的作用

1)分類

首先對需要區分的類別加以定義,即建立分類模型,然後應用模型對未分類資料進行分類。例如,將信用卡申請按低、中和高風險分類;將顧客按事先確定的顧客型別分組,目的是將資料分配在某一預先定義的類別。

適用演算法:決策樹和最近鄰技術都能很好的用於分類。

神經網路和鏈結分析在某些情況下對分類有用。

2)估計

分類處理的是離散的結果,如「是」與「不是」,估計處理的是連續的結果,輸入一組資料,估計給出乙個未知連續變數的值,如收入、高度或者信用卡的餘額。

信用卡中心可以將客戶分為低、中和高風險,也可以建立模型,對持卡人給以「風險評估分」,得分可以從1至100,表示持卡人的風險級別。

估計還可以應用如估計乙個家庭的孩子數目、估計客戶的壽命值等。

適用演算法:回歸模型和神經網路

3)**

任何的**都可以被認為是分類或估計,不同之處在於你強調的是什麼,**關注的是未來行為或未來值,檢驗準確度的惟一方法是等待和觀察。     應用舉例如下:

**哪些客戶在6個月之內可能離開;

**哪些客戶會預定增值服務;

所有用於分類和估計的技術均可稍加修改後用於**。

分類、估計和**均屬於有指導或定向資料探勘,目的是發現特定目標變數的值。

4)關聯

關聯是確定事物之間的相關性,確定哪些事物會同時出現,典型應用是購物籃分析。

關聯也可以被用來分析交叉購物的機會,以設計吸引人的產品或服務包。

5)聚類

聚類的任務是將相似的事物分成一類,差異較大的事物分在不同的類中,它沒有事先確定好的類別,也沒有樣本,記錄按照自身的特徵相似性聚集在不同的類別。

聚類通常作為一些其它形式的資料探勘或建模的前奏。

6)描述與視覺化

對資料準確的描述,如「網上購物的數量女性要大於男性」

資料視覺化是通過圖形化的手段描述資料。

3、資料探勘在市場營銷中的應用

通過分析客戶詳細的行為資料,資料探勘可以對客戶進行精確營銷,剔除非客戶群體,節省市場營銷的費用,抓住最有價值的客戶,避免核心客戶的流失,此外,資料探勘還可以幫助企業識別潛在客戶群體,針對不同的類別採用差異化的市場策略,提公升收入。

4、資料探勘在客戶關係管理中的應用

通過應用資料探勘方法,企業可以將客戶資料庫的大量資料轉變成描述顧客特徵的影象,了解客戶的行為特徵,研究客戶的生存週期,在不用的週期如何改進客戶關係。

5、資料探勘的四種方法

1)購買與企業的商業問題配套的評分機制,如信用評估系統;

2)購買資料探勘軟體這類整體解決方案;

3)針對特定的問題,請專家完成**模型的建立;

4)組織內部掌握資料探勘技能。

大資料的學習1(相關的概念)

目前大資料使用的系統是hadoop,這是乙個apache的開源專案。hadoop有三個核心部分,分別是hdfs mapreduce yarn。hdfs實現儲存,mapreduce實現分析處理,yarn實現資源的排程。hadoop的基本組成部分,hadoop 分布式檔案系統 hdfs hdfs 是一種...

深度學習 0 相關概念

卷積核 3 3 3 前兩個 3是卷積核大小,後乙個是通道數,指定步長後滑動一次生成 乙個 x,y,1 假設有n個卷積核,這樣就生成 x,y,n 縮小大小,厚度增加 引數 n個卷積核 n 3 3 n 偏執 對於32 32 3的 28 28 64 卷積 28 28 64 14 14 64 池化 通常也有...

2011相關概念題

資料型別是一組性質相同的具有一定範圍的值集合以及定義在這個值集合上的一組操作。資料型別既有內部資料型別,如int char float bool等,也有自定義外部資料型別,如列舉型別 結構型別 聯合型別 類型別等。adt即abstract data type 抽象資料型別 是基於已有型別組合而組成的...