拆解 千言資料集 文字相似度 競賽第一背後的故事

2021-10-20 21:33:02 字數 1041 閱讀 7424

文字相似度旨在識別兩段文字在語義上是否相似,它在自然語言處理領域是乙個重要研究方向,同時在資訊檢索、新聞推薦、智慧型客服等領域都發揮重要作用。

,paws (paraphrase adversaries from word scrambling),包含 7 種語言釋義對的資料集。

千言(luge.ai)是全面的面向自然語言理解和生成任務的中文開源資料集合,吸引了眾多知名企業的演算法工程師同台競技。其中的文字相似度賽道尤為火爆,參賽隊伍多達300餘支,更是不乏oppo、思必馳等ai領域的知名企業。其中,oppo小布助手在千言文字相似度比賽中,也獲得了第一名的好成績。

為了幫助大家更好地使用千言、參與千言的競賽交流,千言特邀小布助手閒聊組團隊做客,通過本周四的直播,讓我們一起跟著兩位老師了解文字相似度的常用演算法以及『千言資料集:文字相似度』的競賽方案。

3.4日/19:30-20:30

分享嘉賓:

oppo小布助手演算法工程師 張超

oppo小布助手演算法工程師 邱月

分享大綱:

1 語義相似度任務——背景和難點分析

2 語義相似度演算法

2.1 無監督學習

2.2 有監督學習

2.3 語義表徵模型

2.4 語義互動模型

3 千言-語義相似度解決方案

3.1 賽題介紹

3.2 資料集分析

3.3 演算法方案設計【資料清洗、資料增強、模型訓練、5fold交叉驗證、模型融合**方案】

無線充電滑鼠墊*2

精美淨水壺*1

掃碼跟第一面對面請教

千言萬語鄧麗君

乙個時代的偶像,你用甜美的歌喉,征服了億萬同胞。你的名字,似水,像月,如春天。那樣激情,那樣皎潔,那樣明麗。鄧麗君,你的名字撩撥了乙個時代的男男 所有有華人居住的地方,都會吟唱你的歌,都會默念你的名字,都會懷念你的身影 鄧麗君!前無古人,後無來者!你讓億萬人在苦楚的日子嘗到了甜的滋味,你讓芸芸眾生在...

千言萬語IIC時序就五句話

sda,scl都為高時,裝置處於空閒狀態。sda由高變低時,是開始。scl為高時,sda由低變高,是結束。僅當scl為高時,sda上的資料才有效。就是說當主裝置準備寫資料時,先令scl為低 由第一句話可知這時sda無效 然後把要寫的資料,高或低 1或0 放到sda上,這時令scl為高 由第一句話可知...

一博勝千言,百薦始成金 博友話題

話說京都六月,鶯飛草長,天朗雲舒,有著四季中難得的爛漫氣象。借小廢物組織的乙個博友活動,在這次活動中,得以與眾多氣息相通的同道相 見 有的博友,在部落格寫作中有著較為深入的交流 還有的博友,雖未曾謀面,但早已稔熟 想想大家天南地北而來,無非只為一段文字的情緣,乙個相同的心結而已。我在51cto 開博...