使用者畫像 計算使用者偏好標籤及資料指標與表結構設計

2021-09-01 16:05:41 字數 2111 閱讀 4539

一、使用者畫像—計算使用者偏好標籤

下面介紹如何計算使用者的偏好標籤。

使用者畫像之標籤權重演算法

這裡再詳細介紹一下:

使用者標籤權重 = 行為型別權重 × 時間衰減 × 使用者行為次數 × tf-idf計算標籤權重

公式中各引數的釋義如下:

行為型別權重:使用者瀏覽、搜尋、收藏、下單、購買等不同行為對使用者而言有著不同的重要性,一般而言操作複雜度越高的行為權重越大。該權重值一般由運營人員或資料分析人員主觀給出;

時間衰減:使用者某些行為受時間影響不斷減弱,行為時間距現在越遠,該行為對使用者當前來說的意義越小;

行為次數:使用者標籤權重按天統計,使用者某天與該標籤產生的行為次數越多,該標籤對使用者的影響越大;

tf-idf計算標籤權重:每個標籤的對使用者的重要性及該標籤在全體標籤中重要性的乘積得出每個標籤的客觀權重值;

為計算使用者偏好標籤,需要在使用者行為標籤的基礎上計算使用者行為標籤對應的權重值,而後對同類標籤做權重彙總,算出使用者偏好的標籤。關於使用者行為標籤如何打,在這篇部落格裡面有介紹過了

使用者畫像—打使用者行為標籤

下面介紹如何在使用者行為標籤表的基礎上加工使用者偏好標籤:

1、使用者標籤權重表結構設計

字段定義:

使用者id(user_id):使用者唯一id;

標籤id(tag_id):圖書id;

標籤名稱(tag_name):圖書名稱;

使用者行為次數(cnt):使用者當日產生該標籤的次數,如使用者當日瀏覽一本圖書4次,則記錄4;

行為日期(date_id):產生該條標籤對應日期;

2、在使用者行為標籤基礎上加工權重表

加工標籤權重表時,需要根據使用者不同行為對應的權重建立乙個權重維表:

向維表中插入資料:

3、對每個使用者偏好的每個標籤加總求權重值,對權重值做倒排序,取top n

二、使用者畫像—資料指標與表結構設計

本段文章介紹一下畫像中需要開發的資料指標與開發過程中表結構的設計。

首先介紹畫像開發的資料指標,畫像開發過程中通用類的指標體系包括使用者屬性類、使用者行為標籤類、使用者活躍時間段類、使用者消費能力類、使用者偏好類等

資料指標體系

使用者屬性指標

使用者屬性指標根據業務資料**,盡可能全面地描述使用者基礎屬性,這些基礎屬性值是短期內不會有改變的。如年齡、性別、手機號歸屬地、身份證歸屬地等

使用者登入活躍指標

看使用者近期登入時間段、登入時長、登入頻次、常登陸地等指標

使用者消費能力指標

看使用者的消費金額、消費頻次、最近消費時間。進一步結合使用者登入活躍情況,可以對使用者做rfm分層。

使用者流失層級

根據使用者的活躍度及消費情況,判斷使用者的流失意向。可及時對有流失趨向的使用者做營銷召回

使用者年齡段劃分

在做營銷活動或站內推送時,可對不同年齡段做針對性運營

使用者行為標籤

記錄使用者在平台上每一次操作行為,及該次行為所帶來的標籤。後續可根據使用者的行為標籤計算使用者的偏好標籤,做推薦和營銷等活動

表結構設計

對於畫像資料的儲存,除了使用者屬性這種基本上短期不會有變化的資料,其他相關資料的更新頻率一般都比較高,為周更新或日更新

畫像資料更新較為頻繁,通常使用分割槽來將資料從物理上轉移到離使用者最近的地方。

一般對日期字段進行分割槽,當然事實上分割槽是為了優化查詢效能,否則使用資料的使用者也不需要關注這些字段是否分割槽。

例如說建立乙個使用者行為標籤表:

create table userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) partition by (date_id string);

分割槽表改變了hive對資料的儲存方式,如果沒做分割槽,建立的這個表目錄為:

hdfs://master_server/user/hive/warehouse/userprofile

建立日期分割槽後,hive可以更好地反映分割槽結構子目錄:

hdfs://master_server/user/hive/warehouse/userprofile/date_id=『2018-05-01』

在userprofile表下面,每個日期分割槽的資料可以儲存截止到當日的全量歷史資料,方便使用者查詢。

使用者畫像標籤維度 使用者畫像 計算使用者偏好標籤

在 使用者畫像 打使用者行為標籤 中,主要講了如何對使用者的每一次操作行為 業務行為進行記錄打上相應的標籤。在這篇部落格中,主要講如何對這些明細標籤進行計算以及偏好的產品 內容的類目。關於使用者標籤權重的計算,在這篇部落格裡面講過了 超人 使用者畫像之標籤權重演算法 zhuanlan.zhihu.c...

使用者標籤 vs 使用者畫像

現在很多人把使用者標籤和使用者畫像混為一談。雖然標籤和畫像的資料基礎是同一套,但適用場景完全不同,乙個是巨集觀角度,乙個是微觀角度,需要在使用時進行區別。使用者標籤,是通過人工或智慧型的方式,對使用者群的某些共同特徵進行提煉的結果。使用者標籤是用來給使用者分群的,是面向市場營銷人員的。使用者畫像,是...

使用者畫像標籤維度 使用者畫像之標籤權重演算法

感謝大家長期以來對專欄的關注,最近工作比較忙,好久沒更新了。接下來的幾篇文章想和大家分享下關於使用者畫像的一些東西。今天我們先從使用者畫像的標籤權重開始聊起吧。使用者畫像 即使用者資訊標籤化,通過收集使用者社會屬性 消費習慣 偏好特徵等各個維度資料,進而對使用者或者產品特徵屬性的刻畫,並對這些特徵分...