問答系統搭建過程

假設我們的庫裡面已有存在以下幾個《問題,答案》：

假設乙個使用者往系統中輸入了問題「{}是做什麼的？」，那這時候系統先去匹配最相近的「已經存在庫里的」問題。那在這裡很顯然是「{}是做什麼的」和「{}主要做什麼方面的業務？」是最相近的。所以當我們定位到這個問題之後，直接返回它的答案「他們主要做人工智慧方面的教育」就可以了。所以這裡的核心問題可以歸結為計算兩個問句（query）之間的相似度。

dev-v2.0.json: 這個資料報含了問題和答案的pair，但是以json格式存在，需要編寫parser來提取出裡面的問題和答案。

spell-errors.txt這個檔案主要用來編寫拼寫糾錯模組。檔案中第一列為正確的單詞，之後列出來的單詞都是常見的錯誤寫法。但這裡需要注意的一點是我們沒有給出他們之間的概率，也就是p(錯誤|正確），所以我們可以認為每一種型別的錯誤都是同等概率vocab.txt這裡列了幾萬個英文常見的單詞，可以用這個詞庫來驗證是否有些單詞被拼錯

testdata.txt這裡蒐集了一些測試資料，可以用來測試自己的spell corrector。這個檔案只是用來測試自己的程式。

把給定的文字資料讀入到qlist和alist當中，這兩個分別是列表，其中qlist是問題的列表，alist是對應的答案列表

import json
def read_corpus():
"""讀取給定的語料庫，並把問題列表和答案列表分別寫入到 qlist, alist 裡面。 在此過程中，不用對字元換做任何的處理（這部分需要在 part 2.3裡處理）
qlist = ["問題1"， 「問題2」， 「問題3」 ....]
alist = ["答案1", "答案2", "答案3" ....]
務必要讓每乙個問題和答案對應起來（下標位置一致）
"""qlist = 
alist = 
datas = json.load(open('train-v2.0.json'))['data']
for data in datas:
paragraphs = data['paragraphs']
for paragraph in paragraphs:
qas = paragraph['qas']
for qa in qas:
question = qa['question']
answers = qa['answers']
assert len(qlist) == len(alist) # 確保長度一樣
return qlist, alist

對資料的理解是任何ai工作的第一步，需要對資料有個比較直觀的認識。在這裡，簡單地統計一下：

import matplotlib.pyplot as plt
q,a = read_corpus()
# todo: 統計一下在qlist中總共出現了多少個單詞？ 總共出現了多少個不同的單詞(unique word)？
# 這裡需要做簡單的分詞，對於英文我們根據空格來分詞即可，其他過濾暫不考慮（只需分詞）
word = 
for s in q:
s = s[:-1]
for w in s:
word_dict = {}
for w in word:
if w not in word_dict:
word_dict[w] = 0
else:
word_dict[w] += 1
word_total = len(word_dict)
plt.hist(word)
plt.show()
print (word_total)

此部分需要做文字方面的處理。以下是可以用到的一些方法：

問答系統搭建過程

問答系統調研

PyAiml問答系統構建

問答系統筆記1

問答系統搭建過程

問答系統調研

PyAiml問答系統構建

問答系統筆記1

相關推薦