2011-06-10 131 views
7

我想設置我的robots.txt,但我不確定正則表達式。正則表達式爲robots.txt

我有四種不同的頁面,有三種不同的語言。我想我可以使用正則表達式,而不是列出每個頁面的時間3。

nav.aspx
page.aspx/changelang(可能有一個查詢字符串附諸如 「?toLang = FR」。)
mypage.aspx?編號
login.aspx的/註銷(= 12346?...等 - 每次不同)

!所有四個3種不同的語言,如:

www.example.com/es/nav.aspx
www.example.com/it/nav.aspx
www.example.com/fr/nav。 aspx

現在,我的問題是:以下regexp是否正確?

User-Agent: * 
Disallow: /*nav\.aspx$ 
Disallow: /*page.aspx/changelang 
Disallow: /*mypage\.aspx?id 
Disallow: /*login\.aspx\/logoff 

感謝

回答

17

正則表達式是不是在robots.txt的允許,但Googlebot的(和其他一些機器人)可以理解一些簡單的模式匹配:

您的robots.txt應該是這樣的:

User-agent: * 
Disallow: /*nav.aspx$ 
Disallow: /*page.aspx/changelang 
Disallow: /*mypage.aspx?id 
Disallow: /*login.aspx/logoff 

User-agent指令是小寫a有效。您不必轉義.或`/'。

您可以在這裏閱讀更多關於此:Block or remove pages using a robots.txt file