阿里副總裁玄難 藏經閣計畫首次在阿里應用落地

2021-08-25 13:58:07 字數 2530 閱讀 1572

2023年4月,阿里聯合清華大學、浙江大學、中科院自動化所、中科院軟體所、蘇州大學等五家機構,聯合發布藏經閣(知識引擎)研究計畫,同時還宣布打算用一年時間初步建成首個開放的知識引擎服務平台,服務社會。

在全國知識圖譜與語義計算大會(ccks)上,阿里巴巴集團副總裁、藏經閣計畫阿里負責人牆輝(玄難)宣布藏經閣計畫首次在阿里應用落地,以及首次披露大規模知識構建技術細節,並從三個方面進行了解讀。

阿里巴巴集團副總裁牆輝(玄難)

伴隨著過去近19年的發展,阿里生態下消費者、賣家、品牌商、運營等各種角色參與其中,每天都產生著海量的資料。

以商品相關的資料為例,阿里有近百億級別的實體,例如品牌、產品、條碼等,實體之間又有百億級別的關係邊。以百科資料為例,阿里有近千萬級別的實體,例如人物、地點、公司等,實體之間有十億級別的關係邊。

這些資料**非常廣泛,有來自國家的資料,例如gs1編碼中心的條碼資料,有阿里電商生態的資料,例如線上如**、天貓、盒馬,有不同業務形態的資料,例如高德、uc等。

但對於阿里來說,這些寶貴的資產要求資料具備很高的完整度和確定性,多源資料要把冗餘度降低,資料無衝突,並彼此鏈結。最終目的是把資料變成知識,能夠支撐著上層的ai應用,主要是三個方向:業務中臺商業能力的智慧型化公升級、搜尋推薦、智慧型互動。

除了這些事實類的知識之外,阿里還有大量的形式化知識。

形式化知識對於垂直知識圖譜很重要,構建知識圖譜和知識圖譜服務都要用到這些知識。例如商品知識圖譜生成標籤的畫像知識,商品分類的場景知識,生成關係邊的鏈結知識:判斷商品-產品的關係,生成屬性值的知識。還有大量的業務知識,例如管控業務和跨市場商品體系的聯通,幫賣家把國內商品自動發布到國外。

海量的資料和知識,使我們在眾多領域可以建立完善的知識引擎,但同時也面臨很多挑戰:

面對這些挑戰,我們在今年4月,聯合清華大學、浙江大學、中科院自動化所、軟體所、蘇州大學等五家機構,聯合發布藏經閣(知識引擎)研究計畫。

整個計畫依賴阿里強大的計算能力(例如igraph圖資料庫),和先進的機器學習演算法(例如pai平台),把知識引擎分為五個模組:包括知識建模、知識獲取、知識融合、知識推理計算和知識賦能。

這五個模組可以提供從資料、資訊、知識到知識服務一整套技術平台化服務,同時,特定領域知識圖譜可插拔,特定領域知識圖譜載入後,可以提供特定領域的知識服務。

如今,知識引擎這五大技術模組技術研究有重要進展。

知識融合&知識獲取演算法大規模擴充套件

知識引擎提供通用的服務就會面臨很多領域的知識圖譜的構建和不同的業務。知識融合&知識獲取演算法要具備良好的擴充套件性。良好的擴充套件性需要快速獲取訓練資料,所以需要引入眾包。

但是,眾包資料質量參差不齊。不同的標註者把iphonex和蘋果iphone x標成產品詞,這種不一致樣本會成為訓練的噪音。

我們通過對抗學習,對抗學習的優化目標是分類器分不標註者。從而隱層網路能學習出標註者之間的共性特徵,然後把這個共性特徵拼接到識別模型中。從而提高識別的精度。

提高知識獲取模組實體關係抽取的精度

文字的句法資訊對實體關係的識別非常重要。例如a和b建立了公司c。我們挖掘出公司c的創始人是a。通過a和b的並列關係的句法資訊我們就可以知道公司c的創始人還有b。 所以我們設計了基於樹結構來表示乙個實體,從而能夠把句法的層次資訊表示進深度學習網路。

邏輯推理與深度學習結合的推理框架

這個推理引擎,通過一階邏輯霍恩子句能夠表示我們知識圖譜中的百萬級的形式化知識,使得這些知識可沉澱、可復用、可執行。形式化知識實時執行可以補全知識圖譜的屬性值,補全實體關係,生成畫像標籤,知識放大支援查詢。

我們的創新點在於:整個推理引擎支援確定性推理,例如基於形式化知識的推理和基於深度學習推理,例如基於深度學習的關係補全。同時推理引擎支援演算法、詞庫、垂直知識圖譜的可插拔,例如查詢產地為中國的食品:用到詞林的資訊,產地和原產地是同義詞;用到地理知識圖譜,天津屬於中國;用到演算法模組-同款商品演算法,這樣找到的商品量會增加百倍。

藏經閣計畫涉及商品知識圖譜、旅遊知識圖譜、客服體驗知識圖譜、安全知識圖譜,如今,該計畫首次在安全知識圖譜和旅遊知識圖譜應用落地。

我們用知識引擎為城市大腦提供服務,安全知識圖譜全要素搜尋上線,能夠讓你的城市更安全,讓每個人在乙個城市裡面過的更開心。

旅遊業務是乙個知識密集型的業務,消費者要對乙個旅遊目的地的知識做到快速獲取和使用。知識引擎提高旅遊景點資訊質量、自動把遊記攻略等內容結構化,和旅遊知識的聯通,極大提高使用者的旅遊體驗。

我們希望一年內基於這些知識圖譜沉澱通用的知識引擎服務包括:1)本體半自動化構建演算法及管理工具;文字自動結構化演算法;多源知識庫融合演算法與工具;基於形式化知識的推理及工具; 2)自然語言、邏輯語言、資料庫語言查詢服務。

各類垂直領域知識圖譜,提煉和發現領域知識,為上層業務提供知識服務,實現商業創新,最終使各個垂直知識圖譜關聯互通,建成全領域知識圖譜,為社會服務。

每天一篇技術文章,

看不過癮?

發現更多ai乾貨。

Google副總裁用哪種郵箱?

沒錯,左邊這位金髮lady就是google的一名女副總裁 marissa mayer,她負責搜尋產品和使用者服務體驗。她的工作範圍及成就是什麼?如下 marissa負責領導google搜尋產品的產品管理工作,這些搜尋產品包括web搜尋 論壇 新聞 froogle google工具欄 google桌面...

EqualLogic副總裁談用於網格計算的儲存

日期 2007 3 16 字型 大 中 小 編者按 網格計算已發展成為一種眾人熟知的結構,它使使用者和應用程式能夠不受阻礙地使用大量的it資源。計算機網格跨企業連線計算機 伺服器或桌面 和存 儲,並將地理位置分散的異類元件虛擬化為乙個可使用的系統。網格計算的目標是允許眾多任務作負荷共享計算和資料資源...

騰訊副總裁張小龍談使用者體驗

csdn研發頻道 使用者體驗的目標 做到 自然 通過例舉幾個示例證明 1.需要用文本來解釋的互動不是好互動 觀察3歲的小孩用iphone很容易上手。比如,iphone的開鎖,小孩甚至不用學就會用。因為觸控是人的天性,同時iphone通過箭頭圖示,向右滑動的文字條 小孩看不懂文字 來暗示手指觸控向右滑...