一個robots.txt允許爬行只有活網站其餘的應該被禁止

我有一個直播網站「www.faisal.com」或「faisal.com」，有兩個測試Web服務器如下

「faisal.jupiter.com」和「faisal.dev.com」

我想要一個robots.txt來處理這一切，我不希望爬蟲從「faisal.jupiter.com」和「faisal.dev.com」索引頁面，只允許從「www.faisal。 com「或」faisal.com「

我想要一個robots.txt文件，它將在所有的Web服務器上，並且應該只允許索引只有活網站。

2010-09-30 d-man

disallow命令只指定相對URL，所以我猜你不能擁有相同的robots.txt文件。

爲什麼不強制在開發/測試服務器上進行HTTP認證？

這樣機器人將無法抓取這些服務器。

特別是現在似乎是一個好主意，如果你想允許特定人員進行檢查，但不是每個人都試圖找到你尚未調試新版本的缺陷......

，你給了地址，以每個人都在網上。

2010-09-30 07:31:04 siukurnin

根據需要訪問開發人員和測試服務器的人員以及從何處訪問，可以使用.htaccess或iptables來限制IP地址級別。

或者，您可以將您的robots.txt文件與Web應用程序本身分開，以便可以控制其相對於環境的內容。

2011-07-08 05:32:29

回答