訪客路徑分析 Druid實踐

2021-08-19 17:00:33 字數 1740 閱讀 6708

訪客分析是常見資料分析的一種,通過如上圖(google analytics)以比較直觀的方式展現使用者達到**後各條訪問路徑的流失情況,幫助**優化減少流失率。

訪客路徑分析有如下幾個關鍵點:

通過上述分析,要實現訪客路徑分析需要完成如下幾項工作:

計算每一級所有網頁的會話總數。

計算每一級會話數top 5的網頁。

計算每一級兩兩網頁之間的跳轉訪問數。

本文提出一種基於druid的實現方案,將上述3個查詢轉化為druid中的timeseries(求總數)、topn(求前5)、groupby(求兩兩關聯)查詢。

資料清洗(etl)

將使用者pv流水根據,聚合成乙個session會話。session會話內使用者的訪問流水按時間排序,取前11個分別放於維度landing_page ~ path10,etl處理後的資料**示例如下:

host

landing_page

path1

path2

…path10

www.***.com

/index.html

/a/b…/e

www.***.com

/product.html

/c/d

…null

資料入druid供查詢,schema設計如下

},

"dataschema" : ,

"querygranularity" : ,

"intervals" :

},"parser" : ,

"timestampspec" : }

},"metricsspec": },

"tuningconfig" : ,

"indexspec" : ,

"dimensioncompression":"lz4"

, "metriccompression" : "lz4"

, "longencoding" : "auto"

} }

}}

查詢語句示例

計算每一級所有網頁的會話總數(預設展示前5級),過濾掉為null的情況(使用者只訪問到上一級就跳出)。

]

},"aggregations": [

},"aggregator":

},},

"aggregator":

},},

"aggregator":

},},

"aggregator":

},},

"aggregator": }],

"intervals":

}

計算每一級會話數top5的網頁,過濾掉為null的情況(使用者只訪問到上一級就跳出)。
,}]

},"threshold": 5

, "metric": ,

"aggregations": ,

"intervals":

}

計算每一級兩兩網頁之間的跳轉訪問數,後一級的null用來計算流水數。
,,]

},"aggregations": ,

"intervals":

}

本文提出基於druid來做訪客路徑分析的方案需由多個請求來完成。

PostGis路徑分析

建立postgis資料庫。使用sample資料庫做模板。要生成最佳路徑,首先要生成合法的拓撲。生成拓撲前,需要新增兩個字段,用來儲存線段的首尾編號 add source and target column alter table nyc roads add column source integer...

網路分析概述 路徑分析

網路分析功能 路徑分析 路徑分析是gis中最基本的功能,其核心是對最佳路徑的求解。從網路模型的角度看,最佳路徑的求解是指在指定網路的兩個結點之間,找一條阻礙強度最小的路徑。另一種路徑分析功能是求解最佳遊歷方案,又分為弧段最佳遊歷方案求解和結點最佳遊歷方案求解兩種。最佳路徑分析 最佳路徑分析也稱最優路...

統計之路徑分析簡述

一般來講,無論是一元線性回歸還是多元線性回歸,都是研究自變數如何影響因變數的。然而在一些問題當中,自變數之間也有可能存在聯絡。這種情況下,傳統的線性回歸模型就不適用了。路徑分析 path analysis 就可以解決這種問題。以下以住院的例子進行說明 圖1 圖1.路徑分析的乙個例子。年齡 入院時的病...