經典回顧 Deepwalk模型

2021-10-09 03:16:08 字數 1720 閱讀 6483

deepwork本質是word2vec模型在圖資料的擴充套件,通過deepwork方法可以獲得更加有效的圖資料節點的在連續空間的編碼。在圖資料用random walk取樣的序列等價於自然語言中的句子,序列中的節點等價於自然語言中的單詞。

本節提到的所有word2vec技術(cbow,skip-gram,hierarchical softmax)在經典回顧:word2vec模型中均有詳細介紹。

一次random walk被記作wvt

w_v^t

wvt​

,可以通俗理解為以圖上乙個節點v

vv(隨機選取)為起始節點,一共包含t

tt個節點一條路徑。具體的第2個節點是從第乙個節點的鄰居隨機選取,第3個節點是從第二個節點的鄰居隨機選取,以此類推。

為了實現能夠獲得更通用的圖節點在連續空間的編碼,這裡需要借助自然語言處理中的word2vec中cbow思路,優化目標為:最大化在random walk的路徑中,根據已經獲得的節點v1,

v2,.

..,v

i−1v_1,v_2,...,v_

v1​,v2

​,..

.,vi

−1​觀察到節點v

iv_i

vi​的可能性,即:

m ax

p(vi

∣φ(v

1),φ

(v2)

,...

,φ(v

i−1)

)maxp(v_i|φ(v_1),φ(v_2),...,φ(v_))

maxp(v

i​∣φ

(v1​

),φ(

v2​)

,...

,φ(v

i−1​

))其中,φ

φφ可以看作語言模型中的投影層,引數尺寸為v∗d

v*dv∗

d(v為節點的總數,d每個節點為編碼的長度)

不過直接優化上述公式十分困難,因此需要對上述問題進行鬆弛:首先可以將由上下文**節點轉為由節點**上下文(這裡上下文長度又稱為視窗長度w,w=1時上下文為節點左側距離最近的1個節點和右側距離最近的1個節點);其次不再考慮上下文的順序,即上下文每個節點相對於偏移。優化的目標變為了自然語言處理中的word2vec中skip-gram思路

m ax

p(vi

−w,.

..,v

i−1,

vi+1

,...

,vi+

w∣φ(

vi))

maxp(v_,...,v_,v_,...,v_|φ(v_i))

maxp(v

i−w​

,...

,vi−

1​,v

i+1​

,...

,vi+

w​∣φ

(vi​

))同時為了進一步加速也將skip-gram中softmax層換為了word2vec中hierarchical softmax方法

經典回顧 模型測試集評價指標(模型泛化能力)

靈敏度 sensitivity 特異度 specificity 1 特異度 roc曲線 auc area under curve 為真 為假 標籤為真 tpfn 標籤為假 fptn a cc urac y tp tnt p fp fn tnaccuracy frac accura cy t p fp...

經典回顧(一)

依稀的記得河南省第七屆acm省賽的第一題 物資排程 貌似可以用dfs水過,但是後來發現可以用dp解決。現在在做面試題的時候又遇到了類似的問題。突然發現這題原來也不過如此,我也能把動態轉移方程給推出來了。方法一 dfs,每個數都有取和不取兩種狀態。如果資料太大 2 n 一定會超時。includeusi...

經典面試題回顧

一 請你自我介紹一下你自己?一般人回答這個問題往往會進入誤區,回答的過於平常,只說姓名 年齡 愛好 工作經驗等,但是你們想到沒有,其實這些資訊你的個人簡歷上都有,那麼面試官還問你幹什麼?其實,面試官最希望知道的是求職者能否勝任這份工作,包括 最強的技能 最深入研究的知識領域 個性中最積極的部分 做過...