過路人分析 新浪微博搜尋的分詞技術不足

2022-02-17 15:30:07 字數 707 閱讀 9332

迭詞是非常重要的測試元素,我們以「阿里巴 巴」作為測試詞彙,去評測效果:

效果是驚人的不令人滿意。那麼真實的測試「阿里巴巴」效果應該是這樣子的:

沒有做全域性分詞。例如,「阿里巴 巴」至少應該分為三個片語,但是通過觀察,它只用了專業名詞詞庫。阿里巴巴應該切分的

5個片語「阿里」,「巴」,「巴」,「巴巴」「阿里巴巴」。如果沒有這樣做,將會直接導致搜尋「阿里

巴 巴」效果非常差,幾乎搜尋不到「阿里巴 巴」相關詞彙。

同理,搜尋「阿里  巴巴」效果也會很差,事實也證明如此:

當然,他們這樣分詞也有自己的道理,那就是使用者給定的空格,那一定是詞與詞的分隔符,或者他們自己分詞用的分隔符就是空格。在以前可以這樣解釋,但是搜尋在

n年前就進入了語義時代,如果還保留以前思想,那一定會落伍。尤其是:你把這三個

case

360、搜狗搜尋裡面去,他們都能很好處理。讓若你把「

qq」、「qq

防新浪微博即使搜尋

廢話少說,直接上圖,然後貼 效果如下圖 前端顯示 div class search input url control searchs microblog type text span a img src themes shared styles images go.gif a span div c...

新浪微博js結構分析

突發奇想想看下sina微博的js用的是啥框架,就看了下,應該是自己寫的吧,js檔案幸好沒有混淆,僅用了下壓縮,才有此文進行了分析 既然沒混淆也就是公開的意思吧 核心方法 register 類似jquery中的extend,在命名空間下註冊,不同之處在於為的是創造多個命名空間,jquery則只是擴充套...

說說新浪微博資料分析

微博資料分析可深可淺,要想推測博主的經營策略則需要資料跟蹤一段時間,最少的時間是乙個星期。微博要實行實名制,這一舉措對微博的健康發展作用很大,網jczhguzbz絡文化受到重視,微博營銷也勢必會越來越受重視,對微博進行資料分析有利於我們更好的去做微博,那麼收集微博資料具體收集什麼呢?從資料上看又能看...