使用robots.txt來阻止/？param = X

我已經創建了一個使用WordPress的網站，第一天它充滿了虛擬內容，直到我上傳了我的內容。谷歌索引如網頁：使用robots.txt來阻止/？param = X

www.url.com/?cat=1

現在這些頁面不存在，並提出刪除請求，谷歌問我擋住他們的robots.txt

我應該使用：

User-Agent: * 
Disallow: /?cat=

或

User-Agent: * 
Disallow: /?cat=*

我的robots.txt文件看起來有些這樣的事情：

User-agent: * 
Disallow: /cgi-bin 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-content 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /author 
Disallow: /?cat= 
Sitemap: http://url.com/sitemap.xml.gz

這看起來不錯，或者它可以導致搜索引擎的任何問題？我應該使用Allow：/以及所有的Disallow：？

來源

2011-01-21 Meredith

除非您想要允許某些類別，否則無需在此處使用「允許」。例如，您不允許以`/？cat =`開頭的所有內容。但是你可能想要允許一個特定的類別，如`Allow：/？cat = something`。 – 2011-01-21 18:41:28

我會用這實際上

去往框訪問該包括一個問號的所有URL（？）（更多具體而言，與您的域名開頭的任何URL，然後任何字符串，然後是問號，而後又接任意字符串）：

User-agent: Googlebot 
Disallow: /*?

所以我實際上去：

User-agent: Googlebot 
Disallow: /*?cat=

Resourse (Under patttern matching)

來源

2011-01-21 18:25:03 Trufa

在一般情況下，你應該不使用robots.txt指令來處理移除的內容。如果搜索引擎無法抓取它，則無法判斷它是否已被刪除，並可能繼續對這些網址進行索引（或甚至開始索引）。正確的解決方案是確保您的站點爲這些URL返回404（或410）HTTP結果代碼，然後隨着時間的推移他們將自動退出。

如果您想使用Google的緊急URL removal tools，則必須單獨提交這些網址，因此您不會通過使用robots.txt disallow獲取任何內容。

來源

2011-01-22 14:13:53

如果搜索引擎無法抓取它，它無法分辨它是否已被刪除，並可能繼續索引（甚至開始索引）這些URL。

來源

2012-01-19 03:04:02 KAI

使用robots.txt來阻止/？param = X

回答

相關問題