《面向慢性病的中文健康問答框架研究與實現》 筆記

2021-07-27 02:26:17 字數 3034 閱讀 4581

醫療健康產業發展帶來了大量的資料。

資料庫技術、資料探勘技術、自然語言處理技術的發展。

一種是基於準確的知識圖譜來回答特定型別的問題,準確度高,診斷的結果一定程度可以作為專業診斷結果,但回答問題範圍有限。

本文的系統基於檢索和摘要的方法,歸納相似歷史問題的答案,為使用者提供輔助的健康建議而不是準確的診斷結果,內容更加豐富。

醫學詞典構建:疾病和症狀、藥品、食物、檢查、指標、體徵、**詞典共7類。

醫學實體標註集:建立了一套醫學實體標註的集合,並構建了基於此標註集的面向問答資料的訓練集。

貢獻有二:

- 系統為普通使用者提供慢性病領域的中文問答服務。

- 系統能處理一般的問答資料。

2.2.5.1 實體抽取概述

從某段文字中抽取某種型別的實體。實體抽取是一種序列標註問題,本質上還是一種對序列元素的分類問題。

2.2.5.2 實體抽取的方法處理醫療文字需要理解文字語義;

理解文字語義需要抽取文字醫學實體;

抽取文字醫學實體需要借助醫學詞典。

英文中比較著名的是umls。可以用於電子病歷表,分類器,文字翻譯等。

3.2.2.1 專業醫學詞典

與醫學專業人員合作,通過整理網路上的專業詞典和醫學權威書籍只是構建了專業醫學詞典,並儲存在資料庫的資料表中。

3.2.2.2 輔助醫學詞典

專業醫學詞典,專業性和權威性***,手工構建,難度大,成本高,不能滿足要求。

輔助醫學詞典只包含詞條資訊,不包含其他元資訊或者關係資訊。

主要來自搜狗醫學類細胞詞庫,生物醫藥大詞典,尋醫問藥症狀、疾病、藥品查詢。

(其實我只需要關注,本地資料庫的資料如何利用醫學詞典進行答案和問題的標註就可以了)

中科院的nlpir

從問題和回答中抽取出年齡、性別、疾病等等資訊。分兩步,一是實體抽取,二是用結構化的資訊重新表示問題。

4.3.2.1 實體分類集

4.3.2.2 實體標籤集

標註時有兩種可以選擇的演算法,一種是先分詞,分詞之後然後對每個詞語進行試題標註,另一種是不提前分詞,直接對每個字進行實體標註。

由於實體抽取會發現大量的新詞,先分詞不適用。這裡採用逐字標註的方法。逐字標註指的是為每個字打上乙個標籤。

4.3.2.3 特徵生成

4.3.2.4 實體抽取的實現

利用crf++

使用正規表示式來抽取結構化的資訊。

4.3.4.1 疑問句抽取

是乙個分類問題,可以通過提取特徵利用分類器進行分類的方法來做。但是本系統通過疑問詞來提取疑問句,簡單而有效=-=。

4.3.4.2 問題分類

封閉式問題

指回答是或者否的問題,但基本上可以用一句話可以回答,但可能需要其他語句進行佐證。

開放式問題

為了了解開放式問題框定的答案領域範圍,首先定義了答案中的子句型別,然後從疑問句中找到一些典型的詞語對映到子句型別中。

4.4.1.1 實體標註集

在答案中,我們將注意力集中在核心實體上,這包括疾病症狀、藥物、食物、檢查、**方法、器官和指標。相比於問題的實體文累計,我們不在關注個人基本資訊和數值資訊,也不再關注器官描述資訊和指標描述資訊,我們的目的就是發現答案中最核心的話題詞,以方便後續更加深度的分析工作。(我覺得這個和我們想要的有點類似)

4.4.1.2 實體抽取標註的優化

在進行實體抽取標註時,我們使用了詞典資訊。在下例中,所有被標註為藥物(m)的實體,一部分是因為在詞典中出現過,或者試題中的某個字在藥物實體中出現過,或者頓號之後很可能會跟隨乙個實體(這句話不懂)。

但是我們忽略了乙個重要的資訊,那就是頓號意味著兩個實體有極大概率是具有相同的標籤的。類似的,還有「和」、「或者」等詞彙,我們稱之為等價連線詞。

擴充套件:

- 標點符號頓號(、)的標籤為dn?,其中?由緊鄰的上乙個詞的標籤決定

- 非標點等價連線詞的標籤為l?,其中?由緊鄰的上乙個詞的標籤決定

4.4.2.1 概念

最小完整語義指的是給乙個段落重新斷句,將段落切分成很多個句子片段。最小完整語義切分的本質是根據一些通用的句式和高頻字詞用逗號和句號對段落進行標點,從而使得所有的一句好分割的字句長度達到最小,且都具有完整的語義。

4.4.2.2 實現

這是個序列標註問題,同樣使用crf實現。

使用前導詞特徵和字元特徵。

我們成最小完整語義切分之後以句號分割的子句為片段。為了能夠更好的匹配問題一圖,我們需要提前將片段進行分類。

4.4.3.1 分類集定義

4.4.3.3 分類方法

使用svm模型分類,libsvm工具。

4.5.1.1 問題

在問題處理後,可以得到實體標註文字,結構化表示文字,疑問句列表,疑問關鍵字列表,問題型別,要求答案型別等資訊。

4.5.1.2 答案

在答案處理後,我們可以得到經過實體標註文字,語義切分片段列表,片段分類等資訊。

4.5.1.3 實體

實體共現

在之後的檢索和摘要過程中需要用到實體共現的資訊,所謂實體共現是指多個實體在一段文字中共同出現。

某程式設計師感慨 畢業兩年加班兩年,一身慢性病,廢了

我們都知道從事網際網路行業的薪酬高,高的薪酬意味著要付出同等的努力,畢竟天底下沒有免費的午餐,說到網際網路自然離不開程式設計師了,網路公司程式設計師起到了至關重要的角色,對於程式設計師來說加班早已成了常態,很多程式設計師剛滿30頭髮掉落了不少,原因令人唏噓 在程式設計師匯聚的論壇裡,一名剛畢業的職場...

雜言 慢性咽炎的治療藥物

認識我的人都知道,我酷愛辣椒,而且吃的量也比較大,比如2003年去長沙那次,在中南大學對面的乙個麵館,湖南特有的那種裝辣椒的罐子,我一碗放了它三分之一以上將近一半的剁椒到碗裡。所以,我的慢性咽炎到我治好的那一年已經差不多二十年了,很多朋友也都知道我平時咳嗽的比較多,呵呵。今天寫這個是因為看到gmai...

雜言 慢性咽炎的治療藥物

認識我的人都知道,我酷愛辣椒,而且吃的量也比較大,比如2003年去長沙那次,在中南大學對面的乙個麵館,湖南特有的那種裝辣椒的罐子,我一碗放了它三分之一以上將近一半的剁椒到碗裡。所以,我的慢性咽炎到我治好的那一年已經差不多二十年了,很多朋友也都知道我平時咳嗽的比較多,呵呵。今天寫這個是因為看到gmai...