狄利克雷過程理解

2021-07-15 09:20:53 字數 1952 閱讀 7468

狄利克雷過程(dirichlet process )是目前變引數學習(non parameter)非常流行的乙個理論,很多的工作都是基於這個理論來進行的,如hdp(hierarchical dirichlet process)。

下面我們談談dirichlet process的五種角度來理解它。

第一種:原始定義:假設存在在度量空間\theta上的分布h和乙個引數\alpha,如果對於度量空間\theta的任意乙個可數劃分(可以是有限或者無限的)a1, a2,...,an,都有下列式子成立:

(g(a1),g(a2),...,g(an)) ~ dir(\alpha h(a1), \alpha h(a2),..., \alpha h(an)),  這裡dir是dirichlet 分布,

我們稱g是滿足dirichlet process的。

這個定義是2023年ferguson最早提出的定義。在有了這個定義之後,我們怎麼去構造乙個dirichlet process(dp)出來呢?或者如果我們想從這個dp中抽取出一些樣本,怎麼抽呢?由於這個原因,我們有了下面三種構造性定義或者解釋: 中國餐館過程(crp),polya urn ,stick-breaking。

第二種:中國餐館過程(crp)

假設乙個中國餐館有無限的桌子,第乙個顧客到來之後坐在第一張桌子上。第二個顧客來到可以選擇坐在第一張桌子上,也可以選擇坐在一張新的桌子上,假設第n+1個顧客到來的時候,已經有k張桌子上有顧客了,分別坐了n1,n2,...,nk個顧客,那麼第n+1個顧客可以以概率為ni/(\alpha+n)坐在第i張桌子上,ni為第i張桌子上的顧客數;同時有概率為\alpha/(\alpha+n)選取一張新的桌子坐下。那麼在n個顧客坐定之後,很顯然crp把這n個顧客分為了k個堆,即k個clusters,可以證明crp就是乙個dp。

注意這裡有乙個限制,每張桌子上只能有同乙個dish,即一桌人喜歡吃同一道菜。

第三種:polya urn模型

假設我們有乙個缸,裡面沒有球,現在我們從乙個分布h中選取一種顏色,然後把這種顏色塗在乙個球上放入缸中;然後我們要麼從缸中抽取乙個球出來,然後再放入兩個和這個球同種顏色的球進入缸中;要麼就從分布h中選取乙個顏色,然後把這種顏色塗在乙個球上放入缸中。從缸中抽取某種顏色的乙個球的概率是ni/(\alpha+n),ni是這種顏色的球的個數,n是總的球個數;不從缸中抽取而放入一種顏色的球的概率是\alpha/(\alpha+n)。很明顯,polya urn模型和crp有一一對應的關係,顏色對應乙個桌子,坐新桌子對應於不從缸中選取而是從h中選取一種顏色塗球放入缸中。

第四種:stick-breaking模型

假設有乙個長度為1的線段,我們從中選取\pi_1長出來,剩下的部分再選取\pi_2出來,迴圈下去,\pi_n,無窮下去,這個有點類似我們古代的一句話:

「一尺之踵,日取其半,萬世

不竭」,它們滿足\sum \pi_i = 1

對每個\pi_i,我們都從分布h中選取乙個\theta_i,然後從f(\theta_i)中選取出乙個x_i出來。這裡的\theta_i就對應乙個cluster,類似地,我們可以看到資料自然地被分為了各個堆,可以證明這個模型仍然是乙個dp。

第五種:無限混合模型

從stick-breaking模型我們看出,我們可以把dp看著是乙個無限混合模型,即

g ~ \sum_1^\inf \pi_i*f(\theta_i),其中\sum \pi_i = 1。\pi_i 就是混合模型中每個子模型的權重。

目前應用最多的還是從第五種角度來看待問題,即把dp看著是乙個無限混合模型,其中值得注意的是:

1)雖然dp是乙個無限混合模型,但是可以證明,隨著資料的增多,模型的個數是呈現log 增加的,即模型的個數的增長是比資料的增長要緩慢得多的;

2)dp是有乙個馬太效應在裡面的,即越富裕的人越來越富裕,我們可以從第二和第三種解釋中看到,每個桌子或者顏色已經有的資料越多,那麼下一次被選中的概率越大,因為是與在桌子上的個數成正比的。

dp是乙個複雜的隨機過程,需要進一步深入理解,下篇將會繼續這個話題。

狄利克雷過程

官方定義 令 表示乙個可測的引數空間,描述某乙個類別的引數。令h是空間 上的乙個概率測度,表示乙個正實數。對於空間 上的任意乙個有限分割 如果空間 上的乙個隨機概率分布g在這個分割中各部分上的測度服從乙個狄利克雷分布 那麼我們就稱隨機概率分布g 服從狄利克雷過程,記為 我們把 叫做集中度引數,把h叫...

狄利克雷卷積 狄利克雷卷積學習筆記

前置知識 1 常見的完全積性函式 恒等函式 i i n 1 單位函式 id id n n 元函式 epsilon epsilon n n 1 元函式卷積任何函式 f 都是 f 本身 2 常見積性函式 尤拉函式 varphi n 是小於n和n互質的自然數個數 莫比烏斯函式 mu n sigma sig...

狄利克雷卷積

積性函式 f 和 g 狄利克雷卷積的形式 f ast g n sum limits f d g frac 或者 f ast g n sum limits f i g j 它滿足證明 f ast g ast h sum limits sum limits f d g frac h frac 等同於 f...