谷歌如何捕獲街景中的門牌號碼

2021-06-20 07:37:19 字數 1546 閱讀 8500

谷歌可以在一小時內識別並翻譯所有的法國街景中的道路號碼,這得益於他們開發的神經網路系統。 現在,讓谷歌的工程師來告訴你,他們是如何做到的。

當然這些也是谷歌擁有的非常有用的資源。可以從這些**中讀取門牌號,並把它們和所在的地理位置進行比對。這樣就可以在資料庫中記錄下每棟建築物的地理位置。

類似日本、南韓等國家,他們的街道號一般都不是按照地理位置來排列的,街道常常是按照鋪設時間先後等方式來排列,這就給人們定位、找路帶來了很多的麻煩。在這些場景下,谷歌的路牌,門牌識別就特別有用了。

但是,要標記並識別這些號碼是相當耗時的。谷歌的街景照相機已經記錄了數以億計的全景影象,其中包含了上千萬的門牌號碼。檢索這些、識別號碼,任務繁重,不是憑人力能輕鬆完成的。

因此,很自然的,谷歌會用自動化的方式來解決問題。今天,公司的 ian goodfellow 和 pals 向我們揭示了他們是如何做的。他們的方法就是,使用11層神經元的神經網路,神經元被訓練負責從中讀取號碼。

為了容易上手,goodfellow和他的小夥伴們為這項任務設定了一些限制,讓任務盡量簡化。 例如,他們假設上建築的編號已經被圈出並剪裁好,號碼影象至少佔了上的三分之一寬度。他們也假設號碼不會超過5位,這對世界上大部分的地區來說都是合理的假設。

但是,和其他的團隊做的不同,他們並沒有把這些門牌號分割成單個的數字。 他們的做法是在裁剪影象中定位整個號碼,並一氣呵成地唯一確定它,這些都是通過乙個神經網路來完成。

他們用被稱為街景門牌號資料集的開放的號碼資料集的來訓練神經網路的神經元。集合包含了大約 200,000 張谷歌街景照相機拍攝的**,已被公之於眾。他們說,這個訓練花了6天時間才完成。

goodfellow的隊員說,如果乙個自動化系統的效果不能匹敵或超過人工處理(通常,人有 98% 的概率能精確的圈出號碼),哪使用它就毫無意義了。因此,這才是他們團隊的目標。

然而,這並不意味著是正確的在所有的中圈出98%的號碼。而是說,在所有的子集中圈出 98% 的號碼也是可以接受的,這個子集覆蓋到了總集合的 95% 。

即便這樣,已經比其他團隊的效果好很多了。他說,「世界範圍內,我們可以自動檢測並解碼接近一億的街道門牌號,並且可以達到人類檢測的精度」 ,並認為,這是乙個「空前的成功」。

並且他們能在合理的時間內完成這項任務。 「我們可以在一小時內,用谷歌的基礎設施,解碼所有法國的帶街道號的街景」 ,是的,你沒有看錯,確實只需要一小時。

有乙個有趣的問題,這項技術,有沒有可能用於抽取其他的號碼,例如名片上的**號碼,甚至車票號碼。

然而開發人員對這項技術卻並不樂觀。他們說,該技術的成功非常依賴於號碼不超過5位長的假設。「對更長的號碼,我們的方法的擴充套件性不好」 。

雖然系統現在還需完善,其中2%的未辨識號碼仍然是團隊們的眼中釘。但是,谷歌可以放心的說,他們已經在文字抽取和識別上邁出了重要的一步:用單一神經網路來定位和識別數字。

其實,我們最想知道的是,下一步谷歌要做什麼。goodfellow 的團隊透露了一點資訊: 「使用單一神經網路作為完整的端到端的系統的這種方法可以適用於解決其它的問題,如一般的文字解碼或語音識別。」 什麼意思?***。

technologyreview

翻譯: 

極客範 

- sarahcla

]

python中如何捕獲異常?

錯誤 本身的錯誤 異常 由輸入引起的錯誤叫異常 異常是比較難解決的,所以引入這個概念 完整模板 try 可能異常的 except 指定異常型別1 異常執行 except 指定異常型別2 異常執行 except exception as result print result 列印系統提示的錯誤 el...

android中如何捕獲home鍵

發過程中相信大家都有碰到因為不能捕獲home鍵而煩惱,現在終於有辦法了,在level5以上 包含 中,activity類中有如下方法 public void onattachedtowindow 下面附上呼叫 覆蓋activity類裡面的方法 override public boolean onke...

如何優雅的捕獲錯誤

之前的經常會出現這樣的 邏輯 假設這是乙個api介面呼叫 function userinfo code 000 3000 在頁面載入呼叫這個函式 async function getuserinfo catch error async function usecaptured asyncfunc c...