谷歌搜尋 幾乎所有的英文搜尋都用上BERT了

2021-10-10 21:11:17 字數 1925 閱讀 5292

在前段時間舉辦的「search on」活動中,谷歌宣布,bert 現在幾乎為谷歌搜尋引擎上的每乙個基於英文的查詢提供支援。而在去年,這一比例僅為 10%。

bert 是谷歌開源的一款自然語言處理預訓練模型,一經推出就重新整理了 11 項 nlp 任務的 sota 記錄,登頂 glue 基準排行榜。

具體到搜尋引擎來說,bert 可以幫助搜尋引擎更好地理解 web 頁面上的內容,從而提高搜尋結果的相關性。bert 模型中創新性的transformer架構是一大亮點。transformer 處理乙個句子中與所有其他單詞相關的單詞,而不是按順序逐個處理。基於此,bert 模型就可以借助某個單詞前後的詞來考慮其所處的完整語境,這對於理解查詢語句背後的意圖非常有用。

2019 年 9 月,谷歌宣布將 bert 用到搜尋引擎中,但僅有 10% 的英文搜尋結果得到改善;2019 年 12 月,谷歌將 bert 在搜尋引擎中的使用擴充套件到 70 多種語言。如今,這家搜尋巨頭終於宣布:幾乎所有英文搜尋都能用上 bert 了。

bert 對於搜尋引擎意味著什麼?

作為自然語言處理領域里程碑式的進展,bert 為該領域帶來了以下創新:

利用無標籤文字進行預訓練;

雙向上下文模型;

transformer 架構的應用;

masked 語言建模;

注意力機制;

文字蘊涵(下一句**);

這些特性使得 bert 對於搜尋引擎的優化非常有幫助,尤其是在消除歧義方面。用上 bert 之後,對於比較長、會話性比較強的查詢,或者在「for」、「to」等介詞比較重要的語句中,谷歌搜尋引擎將能夠理解查詢語句中詞的上下文。使用者可以用更加自然的方式進行搜尋。

此外,bert 對於搜尋中的指代消解、一詞多義、同形異義、命名實體確定、本文蘊涵等任務也有很大的幫助。其中,指代消解指的是追蹤乙個句子或短語在某個語境或廣泛的會話查詢中指代的是誰或什麼東西;一詞多義指同乙個詞有多個義項,幾個義項之間有聯絡,搜尋引擎需要處理模稜兩可的細微差別;同形異義是指形式相同但意義毫不相同的詞;命名實體確定是指從許多命名實體中了解文字與哪些相關;文字蘊含是指下一句**。這些問題構成了搜尋引擎面臨的常見挑戰。

在過去的一年,谷歌擴充套件了 bert 在搜尋引擎中的應用範圍,「搜尋引擎營銷之父」danny sullivan 和 g-squared interactive 的 seo 顧問 glenn gabe 等人在推特中介紹了谷歌搜尋的最近亮點。

在谷歌搜尋中,有十分之一的搜尋查詢拼寫錯誤。很快,一項新的變革將幫助我們在檢測和處理拼寫錯誤方面取得比過去五年更大的進步。

另乙個即將到來的變化是,谷歌搜尋將能夠識別網頁中的單個段落,並將它們處理為與搜尋最相關的段落。我們預計這會改善 7%的 google 搜尋查詢。

search on 2020:谷歌可以索引乙個網頁的段落,而不僅僅是整個網頁。新演算法可以放大一段回答問題的段落,而忽略頁面的其餘部分。從下個月開始。

一維向量vector幾乎所有用法

vector的使用練習 include include include using namespace std intmain it 1 111 cout vec1 9 endl cout vec1.end vec1.begin endl cout n endl vector int vec2 ve...

谷歌搜尋命令

bphonebook 用bphonebook進行查詢的時候,返回結果將是那些商務 資料。datarange 當我們使用datarange進行查詢的時候,google會將查詢結果限制在乙個特定的時間段內,這個時間相對於 來說,是按 被google收錄的時間算的。例 geri halliwell spi...

谷歌搜尋高階(一)

搜尋社交 如 twitter 搜尋 如camera 400 搜尋標籤,如 unitedairlines 排除,如jaguar speed car 萬用字元,如largest in the world 數字範圍,如camera 50.100 or結合搜尋,如marathon or race site指...