nubbi模型的啟發

2021-07-15 06:54:34 字數 1204 閱讀 9105

document-network,描述主題間關係,rtm、nubbi、

社交網路是用來描述實體之間,即人與人之間關係的結構,而關係一般通過文字的形式含蓄的表達。比如一篇涉及**regen和演員wyman的文章,會出現如:政治、娛樂、結婚等話題的「實詞」。我們認為這些實詞不是用來描述人的,就是用來描述關係的,因此劃掉了實體詞袋和functional words,剩下的就是描述關係的詞。因此實體主題和關係主題應用不同的分布,可總結出:(家庭關係詞)(職業關係)(政治關係)等的關係主題,以及哪些個體之間存在上述關係。應用該模型可以:

1、構建多項式分布的實體詞袋集,識別某些人的某些特徵,即他們的實體主題特徵;

2、構建多項式分布的關係詞袋集,識別關係的型別,即家庭?從屬?等;

3、構建實體和關係共現的多項式分布,即這些人有這些關係。

特別的,模型定義了乙個多項式分布、取值(1,2,3)的selector變數,當取不同值時,進行實體1、實體2、關係3的引數估計,從而,一篇文章中的詞一定是number_of _entities+pair個詞袋。實體詞的生成僅受theta約束,關係(pair)詞的生成受兩個實體的theta或自己的psi引數約束(關係詞就可能是與實體詞相同的詞),

手動進行上述關係的刻畫不夠實際,從而導致很多實體沒有建立關係,或僅在乙個小的資料集上建立固有的、預先指定的關係。

在evaluation部分,作者應用unigram、lda、author-topic(一本書有很多作者,先抽乙個作者,再根據作者抽乙個主題,再進行主題詞的抽取。相當於在主題層上加了個作者層)、nubbi四個模型在資料集:bible、biological(gene、disease等在文獻的摘要中)、wiki上進行了詞的主題**和實體的主題**。在詞的主題**中,nubbi在bible、wiki上的效果好,在biological上效果差,作者給出的解釋是一篇wiki文字中有更多的詞,在k值相同的情況下利用有標註的主題劃分效果顯然會更好;而biological下

演算法輸入有標記實體的文字,如果兩個實體共現多,則為二者建立關係,

同樣的,食品安全報道中涉及的實體通常包括:食品、違禁內容、人(健康),通過描述三者之間的關係,表達乙個事件。有助於結構化的表達,有助於更加深入的挖掘。

reference:

connections between the lines:augmenting social networks with text

ps:感覺這幫人的研究重點在於如何基於不同文字的特異性構建語義網,而不是如何利用語義網,

啟發測試策略模型

啟發測試策略模型 陳能技2007 8 12 原文 heuristic test strategy model james bach 這個測試策略啟發模型是測試策略的設計模式的子集。目的是提醒測試員在建立測試時應該考慮什麼東西。最終目的是為了專業測試員能否對它進行個性化和使用在對話討論中,自我指導學習...

來自行星模型的啟發 談模型之簡單與複雜

讀 數學之美 一書,作者談行星模型,受到啟發,我想談談資料探勘建模中的模型複雜度問題。托勒密的地心說模型,大圓套小圓,十分複雜,然而模型是錯誤的 克卜勒的日心說模型,橢圓模型,模型簡單,並且模型是正確的。我想到了機器學習中的乙個名詞 奧卡姆剃刀 奧卡姆剃刀 原則說的是什麼呢?當兩個模型都可以解決乙個...

軟體工程 敏捷過程模型帶來的啟發與思考

敏捷過程簡介 2001年,kent beck等17位程式設計大師共同發布了 敏捷軟體開發宣言 強調 人 以及 人與人的互動 勝於 過程 和 工具 可執行的軟體勝於 面面俱到的文件 客戶合作勝於 合同談判 響應變化勝於 遵循計畫 這是一種全新的軟體過程思維。最初的軟體 1960 70 年代 的顧客都是...