百度為什麼不能實時收錄並索引最新內容?

2021-04-24 05:42:41 字數 1033 閱讀 9746

原文:http://www.paopaoniu.com/html/bai-du-wei-shi-me-bu-neng-shi-shi-shou-lu-bing-suo-yin-zui-xin-nei-rong-2596.html

大凡站長都會有這樣乙個實際感受和經驗,即對有sitemap(站點索引地圖)的**,google很快就能將新內容索引,甚至快到幾分鐘!

而baidu根本不可能做到這點。就算是大**、更新快的**,也要一段時間。具體沒有做過實驗,但根本無法和google的幾分鐘內容就被索引相提並論!

為什麼會這樣?

今天我研究sphinx

搜尋引擎的時候,算是找到了點答案……

在研究sphinx時,採用4百萬級的資料做測試(http://www.17wen.com

一起問),生成1400mb文件,總耗時382秒(6分半,速度還算不錯)

雖然速度還行,但也不能增加點新內容就重建索引,所以sphinx提供了增量索引的模式,即可將新增加的內容單獨索引,然後增量索引和主索引再合併……

但即便是這個模式,在增加1個增量所有的情況下,也需要120秒進行合併索引!!

所以最後的策略是,每天凌晨4點更新一次增量索引,每週重新建立主索引!這樣避免重複建立索引。但很明顯,這樣導致的結果就是,每天都新內容,必須是到下一天(凌晨4點後)才能被搜尋到!

google一直在宣傳他的分布式檔案系統,它是搜尋成千上萬臺分布式機器。雖然我不得知google具體的演算法,但可以推測出,它的索引不是乙個或者少量的分布式,而是基本並存的海量計算機上的串聯!所以很容易達到當台機器上的實時(或準實時更新),也就是我們可以看到的那種幾分鐘就索引新內容的效果!

顯然,baidu除了雲裡霧裡的彰顯它的分詞技術外,很少詳細介紹他們的搜尋技術!

雖然不知道內幕,但我猜測,它肯定不是海量小索引的串聯,而是幾個大容量索引的群集。這種導致的結果就是,不容易實時更新,每次更新會耗費大量時間和檔案操作。

所以不難推測,baidu很難像google那樣實時更新索引。

當然,以上只是從外部表現來進行分析和推測,沒有實際內部技術依據!所以,雖然不能全部相信,但也不可不信。

新站百度為什麼不收錄?

如果你的 遇到了以上問題,請看下面 在你決定要花錢找人幫你解決問題之前,你應該明白這些問題 1 我的 什麼時候收錄最好?2 我的 是不是適合用快速收錄的方法?3 我的 快速收錄了會不會影響以後的排名?4 我的 沒有排名沒有快照是否與當初的快速收錄有關?5 我的 快速收錄的方法是治標同時也治本嗎?6 ...

百度為什麼會收錄你的文章

如果真是這樣,我們還用得著去研究它,立馬變成精品文章,名字叫做如果勾引蜘蛛爬取站點。保持200字左右都沒問題,沒有關係,這樣的站點卻大量存在。內容是要挖掘和選取的,相信很多朋友已經暗暗在笑。事實上。這裡面有很多道道,你的這個標題就能夠做到非常好的排名,正如標題所說內容是優化的關鍵中的關鍵,很多人多說...

百度最近不收站分析,為什麼不收錄你的站

不收錄你的站嗎?建議做以下工作 1.向搜尋引擎提交一下 2.找個百程式設計客棧度蜘蛛頻繁更新光顧的站點加上文字連線 3.你是不是 剛做www.cppcns.com完就放上ggad。阿里媽媽之類的程式設計客棧廣告聯盟 了?沒收錄前先去掉吧。4.放上個搜程式設計客棧索的 沒事自己在站上用搜尋搜下你站內的...