資料探勘初探

2021-09-01 04:19:31 字數 852 閱讀 9593

資料探勘技術分類

1 關聯分析:啤酒和尿布,猜你喜歡

用於做關聯分析的演算法有apriori

2 分類分析:事先知道類別和分類標準,使用者信用分層

3 序列模式:訪問路徑、購買路徑

4 聚類分析:分類分析的逆過程,聚類分析之前還不知道類別,從大量資料集合中,自動劃分類別。劃分標準是類內差別最小,類間差別最大

通過收集、加工和處理涉及消費者消費行為的大量資訊,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然後以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者物件特徵的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。

主要演算法有神經元網路演算法、決策樹演算法、遺傳演算法

在零售業,資料探勘可有助於識別顧客購買行為,發現顧客購買模式和趨勢,改進服務質量,取得更好的顧客保持力和滿意程度,提高貨品銷量比率,設計更好的貨品運輸與分銷策略,減少商業成本。

5 關鍵概念

支援度(support)的公式是:support(a->b)=p(a u b)。支援度揭示了a與b同時出現的概率。如果a與b同時出現的概率小,說明a與b的關係不大;如果a與b同時出現的非常頻繁,則說明a與b總是相關的。

置信度(confidence)的公式式:confidence(a->b)=p(a | b)。置信度揭示了a出現時,b是否也會出現或有多大概率出現。如果置信度度為100%,則a和b可以**銷售了。如果置信度太低,則說明a的出現與b是否出現關係不大。

示例:某銷售手機的商場中,70%的手機銷售中包含充電器的銷售,而在所有交易中56%的銷售同時包含手機和充電器。則在此例中,支援度為56%,置信度為70%。

引用

資料探勘之模型初探

由於我要打的比賽是做乙個二分類 器,所以就開始找到有關的模型進行了解學習。常見的分類模型如下 邏輯回歸 logistic regression,lr 樸素貝葉斯 bayes,nb k近鄰 k nearest neighbors,knn 決策樹 decision tree,dt 支援向量機 suppo...

Android Fuzz 漏洞挖掘初探

最近因為某些原因,主要看了幾乎能找到的安卓相關的fuzz指令碼。當然時間原因具體實際測試的並不是特別多,下面就發現的一些問題,以及個人想法分享一下。1 binder 機制 android的binder機制 binder其實也不是android提出來的一套新的程序間通訊機制,它是基於openbinde...

python文字挖掘(一) 初探jieba分詞包

一 jieba簡介 近年來,隨著機器學習越來越火,python也跟著火了起來,而python在資料探勘領域的使用也越來越廣泛。在python的第三方包裡,jieba應該算得上是分詞領域的佼佼者,想要使用python做文字分析,分詞是必不可少的乙個環節。二 安裝說明 1 python2.x 開啟cmd...