誰比Google 懂中文

2021-04-13 00:48:41 字數 1169 閱讀 1747

不信? 「《財經》雜誌封面報道:谷歌重來」一文中, 有段對谷歌技術總監王勁的採訪, 原文如下:

「美 國工程師不懂中文,無法準確分詞,常常造成可笑的問題。」谷歌中國技術總監王勁說。比如,使用者輸入「電腦」兩個字,正常的情況是,頁面左側應出現電腦的搜 索結果,右邊應該出現電腦產品廣告,但美國工程師不懂中文,可能會把「電腦」分成「電」和「腦」兩個字,出現的結果和廣告是關於「電」和「腦」 的,令人啼笑皆非。

或許在中國把 google.com 轉到 谷歌 是有道理的, 人家比google 更懂中文, 你們咋不用呢. 咋不知道體會人家的良苦用心呢? 下次誰再說 google 懂中文, 請自費到中關村谷歌大樓外面壁.

// 我有時間了得寫個英文版, 讓全世界人民, 包括google總部的所有人, 看到我們 谷歌 在中文搜尋上做出的傑出的貢獻.

update:

對於中文分詞我是只聽過, 沒做過的門外漢, 不過我發現了乙個測試baidu 和 google 搜尋引擎分詞結果的簡單實用的方法, 對於想測試他們分詞效能的人可以嘗試一下, 不知道這個是不是我先發現的:)

中文分詞分詞演算法

對於google 要相對麻煩一點, 同樣還是用快照(可能大陸不能用), 點快照進去後, 不同的顏色就是分開的詞, 比如說:」谷歌不懂中文分詞演算法」 被分成了這個」谷; 歌; 不; 懂; 中文; 分; 詞; 演算法」:

中文

演算法

就這個例子看, 谷歌的工程師可能不光把「電+腦」組合成」電腦」 就結束了, 起碼要把 「谷+歌」 變成完整的 「谷歌」, 把」分+詞」 變成完整的 「分詞」 吧. 或許這個例子的象徵意義遠大於它的實際意義. 谷歌在本地化的路上不是比美國工程師多解決了乙個」電腦」就行的, 還要解決」谷歌」和」分詞」

我只是拋磚引玉,各位研究分詞的高手可以評判他們的優劣.

讓json更懂中文

相信很多人用php搭後台時候,當ajax用於互動時候,由於字元都被urf 8處理,所以用php的json encode來處理中文的時候,中文都會被編碼,變成不可讀的,類似 u 的格式,而且還會在一定程度上增加傳輸的資料量。str 讓json更懂中文 echo json encode str 輸出 u...

投資比的不是誰動作快

最近特別看好 高空作業平台,這一新興工程機械的發展前景。浙江鼎力作為高空作業平台上市第一股,吸引了我的注意。在這幾年工程機械走下坡路的情況下,它能連續5年保持30 40 的增長,可謂十分亮眼。據研究資料表明高空作業平台在美國的保有量為50w臺,而中國只有3w臺,考慮到中國人力成本的增加,高空作業平台...

讓Json更懂中文 JSON UNESCAPED

複製 如下 php echo json encode 中文 u4e2d u6587 這就讓我們這些在 做開發的同學,很是頭疼,有的時候還不得不自己寫json encode.而在php5.4,這個程式設計客棧問題終於得以解決,json新增了乙個選www.cppcns.com項 json unescap...