人人都應該掌握的9種資料分析思維

2021-08-03 04:24:40 字數 1570 閱讀 8032

說到資料分析,啤酒和尿布的例子大家應該都聽膩了。再具體、深入一些的內容,往往因為數學就令很多人望而卻步了。給大家分享9個不帶數學推導的資料分析思路,希望大家能喜歡~

1.分類

分類分析的目標是:給一批人(或者物)分成幾個類別,或者**他們屬於每個類別的概率大小。

舉個栗子:「京東的使用者中,有哪些會在618中下單?」這就是個典型的二分類問題:買or不買。

分類分析(根據歷史資訊)會產出乙個模型,來**乙個新的人(或物)會屬於哪個類別,或者屬於某個類別的概率。結果會有兩種形式:

形式1:京東的所有使用者中分為兩類,要麼會買,要麼不會買。

形式2:每個使用者有乙個「會買」,或者「不會買」的概率(顯然這兩個是等效的)。「會買」的概率越大,我們認為這個使用者越有可能下單。

如果為形式2畫一道線,比如0.5,大於0.5是買,小於0.5是不買,形式2就轉變成形式1了。

2.回歸

回歸任務的目標是:給每個人(或物)根據一些屬性變數來產出乙個數字(來衡量他的好壞)。

舉個栗子:每個使用者在618會為京東下單多少錢的?

注意回歸和分類的區別在:分類產出的結果是 固定的幾個選項之一 ,而 回歸的結果是連續的數字,可能的取值是無限多的 。

3.聚類

聚類任務的目標是:給定一批人(或物),在不指定目標的前提下,看看哪些人(或物)之間更接近。

注意聚類和上面的分類和回歸的本質區別:分類和回歸都會有乙個給定的目標(是否下單,貸款是否違約,房屋**等等),聚類是沒有給定目標的。

舉個栗子:給定一批使用者的購買記錄,有沒有可能分成幾種型別?(零食狂魔,電子愛好者,美妝達人……)

4.相似匹配

相似匹配任務的目標是:根據已知資料,判斷哪些人(或物)跟特定的乙個(一批)人(或物)更相似。

舉個栗子:已知一批在去年雙十一下單超過10000元的使用者,哪些使用者跟他們比較相似?

5.頻繁集發現

頻繁集發現的目標是:找出經常共同出現的人(或物)。這就是大名鼎鼎的「啤酒和尿布」的例子了。這個例子太容易擴充套件,就不再舉栗子啦。

6.統計(屬性、行為、狀態)描述

統計描述任務的目標是最好理解的:具有哪些屬性的人(或物)在什麼狀態下做什麼什麼事情。

舉個栗子:5月份乙個月內每個使用者在京東7天內無條件退貨的次數

統計描述常常使用者欺詐檢測,試想乙個使用者乙個月退貨100+次,這會是一種什麼情況?

7.連線**

連線**的目標是:**本應該有聯絡(暫時還沒有)的人(或物)。

舉個栗子:你可能認識***?你可能想看***?

8.資料壓縮

資料壓縮的目的是:減少資料集規模,增加資訊密度。

舉個栗子:豆瓣想分析使用者關於國外電影的喜好,講國內電影的評分資料都排除掉

大資料,也不是資料越多越好,資料多帶來的資訊多,但是雜訊也會變多。

9.因果分析

顧名思義,因果分析的目標是:找出事物間相互影響的關係。

舉個栗子:廣告的效果提公升的原因是廣告內容好?還是投放到了更精準的使用者?

這裡最常見的手段就是a/b test啦

資料分析是非常強大的,不過當然還是要在具體的情景下,嚴格的選擇假設,採用科學的分析方法才能產出有價值的結果。資料會說謊的經典案例就是「安慰劑效應」了。

每乙個IT技術人員都應該掌握的30種技能

譯言 http www.yeeyan.com articles view zhaorui 8959 無論你從事何種具體的技術工作,如何才能成為更好的it 從業人員?最近,我在msn上看到一篇名為 每乙個男人都應該掌握 的75種技能 的文章,其中有一部分是我所擅長的,當然還有一些是我不具備的技能。比如...

大資料開發常見的9種資料分析手段

資料分析是從資料中提取有價值資訊的過程,過程中需要對資料進行各種處理和歸類,只有掌握了正確的資料分類方法和資料處理模式,才能起到事半功倍的效果,以下是資料分析員必備的9種資料分析思維模式 1 分類 分類是一種基本的資料分析方式,資料根據其特點,可將資料物件劃分為不同的部分和型別,再進一步分析,能夠進...

資料分析師常用的十種資料分析思路

隨著網際網路的發展 業務邏輯越來越複雜,資料的分析也就變的越來越重要。對資料的分析可有效避免邏輯的混亂,防止在繁雜的業務理解上邏輯不清 判斷錯誤。下面就給大家分享資料分析師常用的十種資料分析思路。道家曾強調四個字,叫 道 法 術 器 層次分別為 器 是指物品或工具,在資料分析領域指的就是資料分析的產...