虛擬主播上線多模態將改變人機互動的未來

iqiyi-vid資料庫生產流程

iqiyi-vid-2018資料集鏈結

這些資料集，是愛奇藝在業務中落地多**技術的基礎，有了這些資料，才讓展開各種實踐成為可能。

愛奇藝tv端的銀河奇異果-ai雷達這個功能讓使用者在看電視時可以通過按遙控器上健來識別畫面中的人物，背後的身份識別技術也用到了多模態，比如為了保證只看ta人物片段的劇情完整性，除了人臉識別技術，還需要結合場景識別、音訊分析技術。

ai雷達-電視中的人物角色瞬間可知

逗芽表情及文案生成

starworks智慧型生產流程圖

以此為例來說明一下，starworks是如何做到在一分鐘之內完成只看ta。

此外，愛奇藝的人臉識別技術不僅支援真人識別，還支援**角色識別。愛奇藝的**角色庫已經支援熱劇中2萬多**角色，是目前已知的最大規模**角色庫，也是愛奇藝ai技術獨有的虛擬形象識別。

在愛奇藝科學家、personai團隊負責人路菊香看來，要實現完美的情緒識別和分析、視覺語義化，我們還有很長的一段路要走。人和機器最大的區別在於，人有感情，而機器沒有，這就是機械人在現在和未來永遠都不可能取代人類的原因之一。識別人的情緒，人機互動才能進行得更加順暢，讓人更有代入感，但目前在情緒識別和分析這一方面，ai技術還任重而道遠。

另一方面，人類接收資訊的方式多種多樣，包括聽覺、觸覺、嗅覺等，但是最重要的方式還是視覺，因此，視覺語義化對人類來說是乙個具有重要意義的應用方向。

但是，利用視覺語義化完成更多日常任務，業界仍在努力。

路香菊建議應該具體問題具體分析，主要難點在於各個模態的關聯表達與融合，如在人物識別時，聲紋特徵與身體特徵有時都可以有效地表示人的身份，但是，兩者加起來，並不一定會達到更好的效果，如何將兩者有效地結合在一起，如何把人的身份資訊綜合在乙個超維度上表達，是非常有挑戰的。

但是，國內多模態研究的發展速度非常快，目前在一些主流的學術資料庫上已經達到了世界領先的水平，比如愛奇藝在2023年的emotiow情感識別競賽上取得了第一名，超過了英特爾和微軟；在在iqiyi-vid多模態人物識別資料集上，愛奇藝利用多模態技術也取得了最高的精度。

在路菊香看來，愛奇藝的手語主播，以及有些公司推出的虛擬主持人，都是今年來多模態應用的乙個里程碑。虛擬人物形象的出現，代表多模態已經可以簡單模仿人的行為，完成特定的使命。

多模態未來的應用前景廣闊，比如表情包自動配文案演算法，採用的就是多模態內容遷移來實現表情包的自動生成。另外，學術上也一直有一些很活躍的方向，如看圖說話、跨模態內容檢索、視覺問答等。

路菊香表示，多模態技術未來發展的方向，會越來越打破單模態輸入輸出限制，從而更貼近人類真實使用習慣，因為在人類的實際生活中，多模態是無處不在的。在人類日常生活當中，綜合利用多模態資訊可以幫助我們更準確的理解人類行為，如學生上課狀態監控、健康監護等。

虛擬主播上線多模態將改變人機互動的未來

iqiyi vid資料庫生產流程 iqiyi vid 2018資料集鏈結這些資料集，是愛奇藝在業務中落地多技術的基礎，有了這些資料，才讓展開各種實踐成為可能。愛奇藝tv端的銀河奇異果 ai雷達這個功能讓使用者在看電視時可以通過按遙控器上健來識別畫面中的人物，背後的身份識別技術也用到了多模態，比如...

虛擬主播上線 多模態將改變人機互動的未來

虛擬主播上線 多模態將改變人機互動的未來

虛擬主播上線 多模態將改變人機互動的未來

虛擬主播上線 多模態將改變人機互動的未來

相關推薦

虛擬主播上線多模態將改變人機互動的未來

虛擬主播上線多模態將改變人機互動的未來

虛擬主播上線多模態將改變人機互動的未來

虛擬主播上線多模態將改變人機互動的未來