2012-08-15 79 views
0

我們遇到了所有頁面鏈接被抓取並繼續抓取的情況。頁面鏈接包含「〜/ {someTerm}/{someOtherTerm}/__ p/##/##」。新404如何找不到索引頁面影響排名?

現在的問題是,現在Google和MSN漫遊器都在爬行成千上萬的頁面,這些頁面不需要被抓取並導致系統緊張。

因此,我們將分頁鏈接更改爲一個Javascript鏈接,並刪除了所有包含「__p」的URL,以便它們現在返回404 - Page Not Found。我們真的只想索引第1頁,也許以後有一兩頁(但現在不擔心)

有沒有辦法使用WebMasterTools for Google和MSNBot在URL中刪除所有包含「__p」的頁面,並且如果是這樣,怎麼樣?

感謝。

+0

使用機器人文本文件來定義什麼是關閉的限制:http://www.robotstxt.org/ – TheZ 2012-08-15 20:13:45

+0

在這種情況下,將「禁止:/ * __ P」中的robots.txt做的伎倆? – ElHaix 2012-08-15 20:20:48

+0

我會使用'/ * __ p $'來明確它位於路徑的盡頭,但是,應該這樣做。注意:通配符適用於Microsoft和Google,但可能不是所有爬行者(尊重標準robots.txt的爬行者) – TheZ 2012-08-15 20:24:32

回答

1

我認爲你應該使用在這些網頁上<meta>標籤,你想從搜索引擎中刪除。

<meta name="robots" content="noindex, nofollow" /> 

此外,您還可以嘗試使用robots.txt排除,看看這site

User-agent: * 
Disallow: /*___p 
+0

同意,如果元標記可以添加到這些頁面,它是更爲理想的,因爲所有爬蟲都可以理解。 – TheZ 2012-08-15 20:35:39