2011-01-21 65 views
2

我已經創建了一個使用WordPress的網站,第一天它充滿了虛擬內容,直到我上傳了我的內容。谷歌索引如網頁:使用robots.txt來阻止/?param = X

www.url.com/?cat=1

現在這些頁面不存在,並提出刪除請求,谷歌問我擋住他們的robots.txt

我應該使用:

User-Agent: * 
Disallow: /?cat= 

User-Agent: * 
Disallow: /?cat=* 

我的robots.txt文件看起來有些這樣的事情:

User-agent: * 
Disallow: /cgi-bin 
Disallow: /wp-admin 
Disallow: /wp-includes 
Disallow: /wp-content 
Disallow: /wp-login.php 
Disallow: /wp-register.php 
Disallow: /author 
Disallow: /?cat= 
Sitemap: http://url.com/sitemap.xml.gz 

這看起來不錯,或者它可以導致搜索引擎的任何問題?我應該使用Allow:/以及所有的Disallow:?

+0

除非您想要允許某些類別,否則無需在此處使用「允許」。例如,您不允許以`/?cat =`開頭的所有內容。但是你可能想要允許一個特定的類別,如`Allow:/?cat = something`。 – 2011-01-21 18:41:28

回答

2

我會用這實際上

去往框訪問該 包括一個問號的所有URL(?)(更多 具體而言,與 您的域名開頭的任何URL,然後任何 字符串,然後是問號,而後又接任意字符串 ):

User-agent: Googlebot 
Disallow: /*? 

所以我實際上去:

User-agent: Googlebot 
Disallow: /*?cat= 

Resourse (Under patttern matching)

0

在一般情況下,你應該使用robots.txt指令來處理移除的內容。如果搜索引擎無法抓取它,則無法判斷它是否已被刪除,並可能繼續對這些網址進行索引(或甚至開始索引)。正確的解決方案是確保您的站點爲這些URL返回404(或410)HTTP結果代碼,然後隨着時間的推移他們將自動退出。

如果您想使用Google的緊急URL removal tools,則必須單獨提交這些網址,因此您不會通過使用robots.txt disallow獲取任何內容。

0

如果搜索引擎無法抓取它,它無法分辨它是否已被刪除,並可能繼續索引(甚至開始索引)這些URL。