怎樣減少無效URL的爬行和索引

少年老成的雲晨守望同學（題外話：少年老成是好事哈。我20多歲時人家說我像40歲，我40多歲時好多人說我像30多，男人20到50歲可以做到基本乙個樣子）貼了個帖子：透過京東**看國內一線b2c**s通病。建議先看那個帖子再回來看本帖，不然不容易明白下面在說什麼。

簡單說，帖子指出乙個嚴重而且現實的seo問題：很多**，尤其是b2c，產品條件過濾系統（如選擇產品的品牌、**、尺寸、效能、引數等）會產生大量無效url，之所以稱為無效只是從seo角度看的，這些url並不能產生seo作用，反倒有負面作用，所以這些url不收錄為好，原因包括：

1.大量過濾條件頁面內容重複或極為類似（大量複製內容將使**整體質量下降）

2.大量過濾條件頁面沒有對應產品，頁面無內容（如選擇「100元以下42寸led電視」之類的）

3.絕大部分過濾條件頁面沒有排名能力（排名能力比分類頁面低得多）卻浪費一定權重

4.這些過濾條件頁面也不是產品頁面收錄的必要通道（產品頁面應該有其它內鏈幫助爬行和收錄）

5.爬行大量過濾條件頁面極大浪費蜘蛛爬行時間，造成有用頁面收錄機會下降（過濾條件頁面組合起來是巨量的）

那麼怎樣盡量使這些url不被爬行和索引、收錄呢？前幾天的一篇帖子如何隱藏內容也可能成為seo問題討論的是類似問題，這種過濾頁面就是想隱藏的內容種類之一。不過可惜，我目前想不出完美的解決方法。雲晨守望提出兩個方法，我覺得都無法完美解決。

一是將不想收錄的url保持為動態url，甚至故意越動態越好，以阻止被爬行和收錄。但是，搜尋引擎現在都能爬行、收錄動態url，而且技術上越來越不是問題。雖然引數多到一定程度確實不利於收錄，但4、5個引數通常還可以收錄。我們無法確認需要多少引數才能阻止收錄，所以不能當作乙個可靠的方法。而且這些url接收內鏈，又沒有什麼排名能力，還是會浪費一定權重。

第二個方法，robots禁止收錄。同樣，url接收了內鏈也就接收了權重，robots檔案禁止爬行這些url，所以接收的權重不能傳遞出去（搜尋引擎不爬行就不知道有什麼匯出鏈結），頁面成為權重只進不出的黑洞。

連向這些url的鏈結配合nofosbhhthrnlwllow也不完美，和robots禁止類似，nofollow在google的效果是這些url沒有接收權重，權重卻也沒有被分配到其它鏈結上，所以權重同樣浪費了。百度據稱支援nofollow，但權重怎麼處理未知。

將這些url鏈結放在flash、js裡也沒有用，搜尋引擎已經可以爬行flash、js裡的鏈結，而且估計以後越來越擅長爬。很多seo忽略了的一點是，js中的鏈結不僅能被爬，也能傳遞權重，和正常連線一樣。

也可以將過濾條件鏈結做成ajax形式，使用者點選後不會訪問乙個新的url，還是在原來url上，url後面加了#，不會被當成不同url。和js問題一樣，搜尋引擎正在積極嘗試爬行、抓取ajax裡的內容，這個方法也不保險。

還乙個方法是在頁面head部分加noindex+follow標籤，意即本頁面不要索引，但跟蹤頁面上的鏈結。這樣可以解決複製內容問題，也解決了權重黑洞問題（權重是可以隨著匯出鏈結傳到其它頁面的），不能解決的是浪費蜘蛛爬行時間問題，這些頁面還是要被蜘蛛爬行抓取的（然後才能看到頁面html裡的noindex+follow標籤），對某些**來說，過濾頁面數量巨大，爬行了這些頁面，蜘蛛就沒足夠時間爬有用頁面了。

再乙個可以考慮的方法是隱藏頁面（cloaking），也就是用程式檢測訪問者，是搜尋引擎蜘蛛的話返回的頁面拿掉這些過濾條件鏈結，是使用者的話才返回正常的有過濾條件的頁面。這是乙個比較理想的解決方法，唯一的問題是，可能被當作作弊。搜尋引擎常跟seo講的判斷是否作弊的最高原則是：如果沒有搜尋引擎，你會不會這麼做？或者說，某種方法是否只是為了搜尋引擎而採用？顯然，用cloaking隱藏不想被爬行的url是為搜尋引擎做的，不是為使用者做的。雖然這種情況下的cloaking目的是美好的，沒有惡意的，但風險是存在的，膽大的可試用。

還乙個方法是使用canonical標籤，最大問題是百度是否支援未知，而且canonical標籤是對搜尋引擎的建議，不是指令，也就是說這個標籤搜尋引擎可能不遵守，等於沒用。另外，canonical標籤的本意是指定規範化**，過濾條件頁面是否適用有些存疑，畢竟，這些頁面上的內容經常是不同的。

目前比較好的方法之一是iframe+robots禁止。將過濾部分**放進iframe，等於呼叫其它檔案內容，對搜尋引擎來說，這部分內容不屬於當前頁面，也即隱藏了內容。但不屬於當前頁面不等於不存在，搜尋引擎是可以發現iframe中的內容和鏈結的，還是可能爬行這些url，所以加rowww.cppcns.combots禁止爬行。iframe中的內容還是會有一些權重流失，但因為iframe裡的鏈結不是從當前頁面分流權重，而只是從呼叫的那個檔案分流，所以權重流失是比較少的。除了排版、瀏覽器相容性之類的頭疼問題，iframe方法的乙個潛在問題是被認為作弊的風險。現在搜尋引擎一般不認為iframe是作弊，很多廣告就是放在iframe中，但隱藏一堆鏈結和隱藏廣告有些微妙的區別。回到搜尋引擎判斷作弊的總原則上，很難說這不是專門為搜尋引擎做的。記得matt cutts說過，google以後可能改變處理iframe的方式，他們還是希望在同乙個頁面上看到普通使用者能看到的所有內容。

總之，對這個現實、嚴重的問題，我目前沒有自己覺得完美的答案。當然，不能完美解決不是就不能活了，不同**seo重點不同，具體問題具體分析，採用上述方法中的一種或幾種應該可以解決主要問題。

而最最最大的問題還不是上述這些，而是有時候你想讓這些過濾頁面被爬行和收錄，這才是杯具的開始。以後再討論。

作者：zac@seo每天一貼

本文標題: 怎樣減少無效url的爬行和索引

本文位址: /news/seo/71934.html

怎樣減少無效URL的爬行和索引

MYSQL索引無效和索引有效的詳細介紹

MYSQL索引無效和索引有效的詳細介紹

避免蜘蛛爬行和索引錯誤的技巧繞開衝突

怎樣減少無效URL的爬行和索引

MYSQL索引無效和索引有效的詳細介紹

MYSQL索引無效和索引有效的詳細介紹

避免蜘蛛爬行和索引錯誤的技巧 繞開衝突

相關推薦

避免蜘蛛爬行和索引錯誤的技巧繞開衝突