2010-09-30 68 views
0

我需要關於robots.txt使用的指南問題如下。一個robots.txt允許爬行只有活網站其餘的應該被禁止

我有一個直播網站「www.faisal.com」或「faisal.com」,有兩個測試Web服務器如下

「faisal.jupiter.com」和「faisal.dev.com」

我想要一個robots.txt來處理這一切,我不希望爬蟲從「faisal.jupiter.com」和「faisal.dev.com」索引頁面,只允許從「www.faisal。 com「或」faisal.com「

我想要一個robots.txt文件,它將在所有的Web服務器上,並且應該只允許索引只有活網站。

回答

1

disallow命令只指定相對URL,所以我猜你不能擁有相同的robots.txt文件。

爲什麼不強制在開發/測試服務器上進行HTTP認證?

這樣機器人將無法抓取這些服務器。

特別是現在似乎是一個好主意,如果你想允許特定人員進行檢查,但不是每個人都試圖找到你尚未調試新版本的缺陷......

,你給了地址,以每個人都在網上。

1

根據需要訪問開發人員和測試服務器的人員以及從何處訪問,可以使用.htaccess或iptables來限制IP地址級別。

或者,您可以將您的robots.txt文件與Web應用程序本身分開,以便可以控制其相對於環境的內容。

相關問題