剖析騰訊知文,智慧型問答機械人路在何方

2021-09-17 08:29:06 字數 2655 閱讀 9103

近年來,智慧型機械人客服已經在各行各業發揮作用,替代人類更有效率地處理繁雜的事務。

但是,不可否認的是,目前市面上大多數智慧型客服並不能完美滿足使用者的需求,如難以處理未經過訓練的場景問題,無法理解複雜的人類語言結構等。在技術和商業化應用上,智慧型客服背後的nlp和語音技術雖然已經取得了很多進步,近年來卻鮮有突破性進展,成功的商業化應用仍然屈指可數。

第一層:應用層,包括智慧型客服機械人、智慧型外呼機、投訴引導機械人、任務查詢機械人等各類具體業務場景機械人。

第二層:接入層,包括公有雲、私有雲、私有化部署等多種接入方式。

第三層:核心問答引擎,包括資訊問答、知識圖譜問答、任務型問答、文件型問答以及多輪互動等技術模組。

第四層:基礎能力層,包括資料能力(行業與領域資料、知識庫管理、遷移學習),nlp能力(基礎nlp演算法元件),深度學習能力(複雜模型優化、深度學習工程化),資料分析能力(自動分析與監控、趨勢分析、問題**)等。

經過數次迭代,知文不斷調整優化知文的架構,以為使用者提供更好的體驗。鐘黎告訴ai前線,知文的發展路徑整體來看是實際業務需求驅動的。最開始是緣起內部業務關於客服的工單統計和分類的需求,輔助人工客服。之後,團隊發現其實可以用問答技術去解決大量頻繁、重複又比較簡單的問題,以減少人工客服的問詢量。隨著時間的推移,知文團隊又遇到新的業務需求,即沒有工單,而是有比較多知識和文件的場景,因此又逐漸引入知識圖譜技術、機器閱讀理解技術。目前,知文的研究重點,一方面是在無標註資料或者少量標註資料下,知文問答平台可以快速高效冷啟動的方案,另一方面是多輪會話下解決使用者意圖在多個機械人間來回跳轉的問題。

經過架構的不斷優化,知文核心問答機械人架構至今已經過四次迭代。鐘黎介紹道,這四大核心機械人主要是指資訊問答機械人、文件閱讀理解機械人、任務執行機械人以及知識圖譜機械人,但具體的迭代路徑、方法和思考,鐘黎表示將會在aicon上揭曉。

nlp和語音在技術上仍然有很多亟待解決的問題,為解決這些問題,知文問答系統做出了諸多優化和創新。例如,在核心的問答匹配上,其匹配模型引入了elmo表示、詞圖卷積、intra/inter-attention機制、位序損失、glu通路等,比當前主流的匹配模型如matchpyramid、aicnn、bimpm等有更好的表現。在文件閱讀理解上,知文問答模型引入了template answer guiding以及tree-based spanning,突破了大部分學術**只能做答案在原文中完全匹配且完全基於監督資料的方法。在任務型問答上,知文問答模型在end-to-end的記憶網路上進行了知識增強,對於多輪的任務型場景,模型能夠有效地記憶更長的會話資訊和槽位狀態。

對於一家企業來說,打造乙個能夠滿足使用者大多數需求的問答機械人絕非易事,在技術和落地上均會面臨很多挑戰。鐘黎告訴ai前線,知文團隊在打造智慧型問答平台的過程中遇到過很多技術難點,在業務落地上也是如此。

其中,知文在業務落地中常見的難點,第乙個就是業務方往往沒有大量的標註資料。智慧型問答平台裡包含了多個演算法模型,如果每個都是監督模型的話,意味著在上線之前需要「喂」進去大量的監督資料,這對於業務方來說是很大的標註負擔。第二個問題,就是業務方往往沒有特別地進行知識庫管理,大多數是一些歷史工單或者faq問題,這些資料的結構化程度還不夠高,沒有形成知識圖譜或者層級關係。基於這些資料做多輪和反問互動,對知文來說是乙個挑戰。針對這些問題,知文平台在資料標註方面採用了few-shot learning的思想,並通過遷移學習的方式,如表徵遷移、模型框架遷移等,極大地降低了業務接入的資料門檻;另一方面,在無結構知識庫管理上,知文平台通過自**譜構建、動態子圖生成的方式,實現通用多輪和反問的互動方式。

雖然,nlp和語音技術在最近幾年在技術和應用上鮮有突破,但隨著更多研究人員和企業、組織進入這一領域,相信在未來,這一領域將醞釀出新一輪爆發和突破。

關於nlp技術未來發展的趨勢,鐘黎認為近期nlp領域值得關注的趨勢是表徵與框架層的遷移學習,包括之前的word2vec、glove,al2的elmo,openai的gpt, fast.ai的ulm,以及google的bert,遷移學習從底層表示的遷移、語言模型的遷移,轉變到了模型框架的遷移。

這其中,他重點強調了谷歌提出的bert模型。「通過海量無監督資料的預訓練,只需要在特定任務上對最後一層進行task-specific的修改,就能取得很好的效果,目前已經在數十個任務上驗證了其有效性。這對於工業應用是很大的福音,尤其對於小資料的任務,我們只需要通過小資料來fine tune最後一層,也能取得很好的效果。在nlp領域,大量的無標註資料的潛力尚待挖掘,這些遷移學習的方法在一定程度證明了無標註資料也是寶藏。非常期待在自然語言領域無監督學習、小樣本學習能夠取得更多突破。」

落地,是所有技術最終的歸屬,無法落地,再好的技術也無用武之地。鐘黎認為,nlp其實不是新事物,在網際網路的落地應用上應該算是其他ai方向的「前輩」,從門戶和搜尋引擎時代開始,nlp就一直是核心技術。

現在來看,nlp技術有兩個新的落地場景值得重點關注:一是多模態內容分發與內容消費,包括各種資訊流、資訊圈等,大量的資訊處理、聚合與觸達,都廣泛依賴nlp技術。另乙個是普適計算下的自然語言互動,包括各種雲+端的裝置,例如手機、車載、音箱等等。

「人機互動的革命暗潮湧動,自然語言的方式將會在越來越多的場景發揮作用。」展望未來,鐘黎如此說道。

福利時間

鐘黎將會在12月份aicon大會上做精彩分享,想要跟他進一步交流的童鞋可到現場面基。

另外大會還邀請到了來自google、微軟、亞馬遜、bat、360、京東、美團、小公尺等40+國內外一線ai技術負責人前來分享他們的機器學習落地實踐經驗,除此之外,還有知識圖譜、nlp、語音識別、搜尋推薦、計算機視覺、ai架構等熱門技術,乾貨滿滿。

智慧型問答機械人概述

處理邏輯 query 中控邏輯 response 指特定條件下提供資訊或服務的機械人。任務型機械人核心模組主要包括三部分 自然語言理解模組 language understanding 對話管理模組 dialog management 自然語言生成模組 natural language genera...

botpress搭建智慧型問答機械人

如果是公司內部網路,需配置node的http 如果出現python語法錯誤,如下 d develop environment botpress12.6 node modules sqlite3 if not defined npm config node gyp node d program fil...

如何使用智慧型問答機械人服務

以某企業的it呼叫中心為例,此呼叫中心每天都要為企業內部員工解答大量的it問題,其中包括大量重複回答的問題。為了降低運維成本,該呼叫中心開始使用華為雲cbs智慧型問答機械人來問答it問題。本文介紹了購買 使用的主要流程和操作步驟。指導您快速了解並建立乙個問答機械人。在使用智慧型問答機械人之前,我需要...