怎樣減少無效URL的爬行和索引

2022-09-29 11:42:10 字數 2632 閱讀 1007

少年老成的雲晨守望同學(題外話:少年老成是好事哈。我20多歲時人家說我像40歲,我40多歲時好多人說我像30多,男人20到50歲可以做到基本乙個樣子)貼了個帖子:透過京東**看國內一線b2c**s通病。建議先看那個帖子再回來看本帖,不然不容易明白下面在說什麼。

簡單說,帖子指出乙個嚴重而且現實的seo問題:很多**,尤其是b2c,產品條件過濾系統(如選擇產品的品牌、**、尺寸、效能、引數等)會產生大量無效url,之所以稱為無效只是從seo角度看的,這些url並不能產生seo作用,反倒有負面作用,所以這些url不收錄為好,原因包括:

1.大量過濾條件頁面內容重複或極為類似(大量複製內容將使**整體質量下降)

2.大量過濾條件頁面沒有對應產品,頁面無內容(如選擇「100元以下42寸led電視」之類的)

3.絕大部分過濾條件頁面沒有排名能力(排名能力比分類頁面低得多)卻浪費一定權重

4.這些過濾條件頁面也不是產品頁面收錄的必要通道(產品頁面應該有其它內鏈幫助爬行和收錄)

5.爬行大量過濾條件頁面極大浪費蜘蛛爬行時間,造成有用頁面收錄機會下降(過濾條件頁面組合起來是巨量的)

那麼怎樣盡量使這些url不被爬行和索引、收錄呢?前幾天的一篇帖子如何隱藏內容也可能成為seo問題討論的是類似問題,這種過濾頁面就是想隱藏的內容種類之一。不過可惜,我目前想不出完美的解決方法。雲晨守望提出兩個方法,我覺得都無法完美解決。

一是將不想收錄的url保持為動態url,甚至故意越動態越好,以阻止被爬行和收錄。但是,搜尋引擎現在都能爬行、收錄動態url,而且技術上越來越不是問題。雖然引數多到一定程度確實不利於收錄,但4、5個引數通常還可以收錄。我們無法確認需要多少引數才能阻止收錄,所以不能當作乙個可靠的方法。而且這些url接收內鏈,又沒有什麼排名能力,還是會浪費一定權重。

第二個方法,robots禁止收錄。同樣,url接收了內鏈也就接收了權重,robots檔案禁止爬行這些url,所以接收的權重不能傳遞出去(搜尋引擎不爬行就不知道有什麼匯出鏈結),頁面成為權重只進不出的黑洞。

連向這些url的鏈結配合nofosbhhthrnlwllow也不完美,和robots禁止類似,nofollow在google的效果是這些url沒有接收權重,權重卻也沒有被分配到其它鏈結上,所以權重同樣浪費了。百度據稱支援nofollow,但權重怎麼處理未知。

將這些url鏈結放在flash、js裡也沒有用,搜尋引擎已經可以爬行flash、js裡的鏈結,而且估計以後越來越擅長爬。很多seo忽略了的一點是,js中的鏈結不僅能被爬,也能傳遞權重,和正常連線一樣。

也可以將過濾條件鏈結做成ajax形式,使用者點選後不會訪問乙個新的url,還是在原來url上,url後面加了#,不會被當成不同url。和js問題一樣,搜尋引擎正在積極嘗試爬行、抓取ajax裡的內容,這個方法也不保險。

還乙個方法是在頁面head部分加noindex+follow標籤,意即本頁面不要索引,但跟蹤頁面上的鏈結。這樣可以解決複製內容問題,也解決了權重黑洞問題(權重是可以隨著匯出鏈結傳到其它頁面的),不能解決的是浪費蜘蛛爬行時間問題,這些頁面還是要被蜘蛛爬行抓取的(然後才能看到頁面html裡的noindex+follow標籤),對某些**來說,過濾頁面數量巨大,爬行了這些頁面,蜘蛛就沒足夠時間爬有用頁面了。

再乙個可以考慮的方法是隱藏頁面(cloaking),也就是用程式檢測訪問者,是搜尋引擎蜘蛛的話返回的頁面拿掉這些過濾條件鏈結,是使用者的話才返回正常的有過濾條件的頁面。這是乙個比較理想的解決方法,唯一的問題是,可能被當作作弊。搜尋引擎常跟seo講的判斷是否作弊的最高原則是:如果沒有搜尋引擎,你會不會這麼做?或者說,某種方法是否只是為了搜尋引擎而採用?顯然,用cloaking隱藏不想被爬行的url是為搜尋引擎做的,不是為使用者做的。雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風險是存在的,膽大的可試用。

還乙個方法是使用canonical標籤,最大問題是百度是否支援未知,而且canonical標籤是對搜尋引擎的建議,不是指令,也就是說這個標籤搜尋引擎可能不遵守,等於沒用。另外,canonical標籤的本意是指定規範化**,過濾條件頁面是否適用有些存疑,畢竟,這些頁面上的內容經常是不同的。

目前比較好的方法之一是iframe+robots禁止。將過濾部分**放進iframe,等於呼叫其它檔案內容,對搜尋引擎來說,這部分內容不屬於當前頁面,也即隱藏了內容。但不屬於當前頁面不等於不存在,搜尋引擎是可以發現iframe中的內容和鏈結的,還是可能爬行這些url,所以加rowww.cppcns.combots禁止爬行。iframe中的內容還是會有一些權重流失,但因為iframe裡的鏈結不是從當前頁面分流權重,而只是從呼叫的那個檔案分流,所以權重流失是比較少的。除了排版、瀏覽器相容性之類的頭疼問題,iframe方法的乙個潛在問題是被認為作弊的風險。現在搜尋引擎一般不認為iframe是作弊,很多廣告就是放在iframe中,但隱藏一堆鏈結和隱藏廣告有些微妙的區別。回到搜尋引擎判斷作弊的總原則上,很難說這不是專門為搜尋引擎做的。記得matt cutts說過,google以後可能改變處理iframe的方式,他們還是希望在同乙個頁面上看到普通使用者能看到的所有內容。

總之,對這個現實、嚴重的問題,我目前沒有自己覺得完美的答案。當然,不能完美解決不是就不能活了,不同**seo重點不同,具體問題具體分析,採用上述方法中的一種或幾種應該可以解決主要問題。

而最最最大的問題還不是上述這些,而是有時候你想讓這些過濾頁面被爬行和收錄,這才是杯具的開始。以後再討論。

作者:zac@seo每天一貼

本文標題: 怎樣減少無效url的爬行和索引

本文位址: /news/seo/71934.html

MYSQL索引無效和索引有效的詳細介紹

1 where字句的查詢條件裡有不等於號 where column mysql將無法使用索引 2 類似地,如果where字句的查詢條件裡使用了函式 如 where day column mysql將無法使用索引 3 在join操作中 需要從多個資料表提取資料時 mysql只有在主鍵和外來鍵的資料型別...

MYSQL索引無效和索引有效的詳細介紹

1 where字句的查詢條件裡有不等於號 where column mysql將無法使用索引 2 類似地,如果where字句的查詢條件裡使用了函式 如 where day column mysql將無法使用索引 3 在join操作中 需要從多個資料表提取資料時 mysql只有在主鍵和外來鍵的資料型別...

避免蜘蛛爬行和索引錯誤的技巧 繞開衝突

正如你所知道的,你不能總是依賴蜘蛛引擎在訪問或者索引你的 時能夠十分有效的運作。完全依靠他們自己的埠,蜘蛛會產生許多重複內容,把一些重要頁面當成垃圾,索引本不應該展示給使用者的鏈結入口,還會有其他的問題。有一些工具可以讓我們能夠充分控制蜘蛛在 內部的活動,如meta robots標籤,robots....