什麼是關聯分析?

2021-09-09 04:22:13 字數 2078 閱讀 7408

在認識什麼是關聯分析之前。先了解一下關聯分析能用來幹什麼吧:

演示樣例1:例如以下是乙個超市幾名顧客的交易資訊。

tiditems

001cola, egg, ham

002cola, diaper, beer

003cola, diaper, beer, ham

004diaper, beer

tid代表交易流水號。items代表一次交易的商品。

我們對這個資料集進行關聯分析,能夠找出關聯規則→。

它代表的意義是:購買了diaper的顧客會購買beer。這個關係不是必定的。可是可能性非常大,這就已經足夠用來輔助商家調整diaper和beer的擺放位置了,比如擺放在相近的位置,進行****來提高銷售量。

所以。關聯分析的任務就是從資料集中挖掘出頻繁項集,然後從頻繁項集中提取出事物之間的強關聯規則。輔助決策。

1、事務

:每一條交易稱為乙個事務。比如演示樣例1中的資料集就包括四個事務。 2、項

:交易的每個物品稱為乙個項,比如cola、egg等。 3、項

集:包括零個或多個項的集合叫做項集,比如。 4、k

−項集:包括k個項的項集叫做k-項集,比如叫做1-項集,叫做2-項集。 5、支

持度計數

:乙個項集出如今幾個事務其中,它的支援度計數就是幾。

比如出如今事務002、003和004中。所以它的支援度計數是3。6、支

持度:支援度計數除於總的事務數。比如上例中總的事務數為4,的支援度計數為3。所以它的支援度是3÷4=75%。說明有75%的人同一時候買了diaper和beer。 7、頻

繁項集:支援度大於或等於某個閾值的項集就叫做頻繁項集。

比如閾值設為50%時,由於的支援度是75%,所以它是頻繁項集。8、前

件和後件

:對於規則→,叫做前件。叫做後件。 9、置

信度:對於規則→,的支援度計數除於的支援度計數。為這個規則的置信度。比如規則→的置信度為3÷3=100%。說明買了diaper的人100%也買了beer。

10、強關聯

規則:大於或等於最小支援度閾值和最小置信度閾值的規則叫做強關聯規則。關聯分析的終於目標就是要找出強關聯規則。

我們easy發現,假設乙個項集是頻繁項集。則它的子項集也都是頻繁項集。假設乙個項集是非頻繁項集,則它的超集也一定是非頻繁項集。(可用反證法證明,此處略)

比如是頻繁項集。則、也都是頻繁項集。

比如是非頻繁項集。則也是非頻繁項集。

關聯分析分為兩個步驟:

<1> 利用支援度找出資料集中的頻繁項集。

<2> 利用置信度從頻繁項集中提取出強關聯規則。

apriori演算法的思路是先找出候選項集,然後依據最小支援度閾值篩選出頻繁項集。

比如先找出全部1-項集。然後篩選出裡面的頻繁1-項集; 依據頻繁1-項集生成候選2-項集,然後篩選出裡面的頻繁2-項集; 再依據頻繁2-項集生成候選3-項集。從裡面篩選出頻繁3-項集;·······

apriori演算法的缺點是須要不斷掃瞄資料集,不斷地求候選項集的支援度從而推斷它是否是頻繁項集。當資料集非常大的時候。這樣的演算法的效率將會非常低。

很多其它關於apriori。請見apriori演算法的介紹。

fp-growth演算法僅僅須要掃瞄兩次資料集。它的思想是把構造一棵fp-tree。把資料集中的資料對映到樹上,再依據這棵fp-tree找出全部頻繁項集。

很多其它關於fp-growth,請見fp-growth演算法的介紹、fp_growth演算法python實現。

從步驟一已經得到了頻繁項集,而此時的任務就是在頻繁項集裡面挖掘出大於最小置信度閾值的關聯規則。

怎麼挖呢?把頻繁項集分成前件和後件兩部分,然後求規則前件→後件的置信度。假設大於最小置信度閾值,則它就是一條強關聯規則。

可是把頻繁項集分成前件和後件的情況有非常多,我們能夠對其進行一些優化。

此處是針對購物籃演示樣例來介紹關聯分析,購物籃資訊屬於布林型的,而現實生活中很多事物都是數值量化的,比如→。

另外。對於產生的強關聯規則,並非全部都是有價值的,還須要對關聯規則進行評價。

很多其它內容興許再補上。

什麼是需求分析

需求分析是對使用者需求的真正明確,是對要解決的問題的徹底理解。在解決問題之前要理解問題,只有真正的理解問題才能更好的解決問題。需求分析就是給系統分析 設計人員乙個和使用者交流來理解問題的機會 了解使用者究竟需要什麼。需求分析也是乙個建模的過程,與在概要設計中建模不同在需求分析中建模是面向使用者的過程...

什麼是模態分析

你能為我解釋模態分析嗎?好,需要花費一點時間,但是任何人都能明白。你不是第乙個要求我用通俗易懂的語言解釋模態分析的人,這樣一來,任何人都能明白模態分析。簡單地說,模態分析是一種處理過程,是根據結構的固有特性,包括頻率 阻尼和模態振型,這些動力學屬性去描述結構的過程。那是一句總結性的語言,現在讓我來解...

需求分析 什麼是需求分析?

需求分析學習目錄 乙個使用者解決乙個問題或實現乙個目標所需的條件或能力 為了滿足乙個合同 標準 規範 或其它正是文件要求,乙個系統或系統構件必須具備或擁有的條件或能力。所有的需求共同形成系統或構件開發的基礎 一種反應1 2所描述的條件或能力的文件說明。在本人所上的軟體需求分析課程中,乙個軟體需求是指...