我將robots.txt文件添加到本地Web服務器的根目錄。如何測試robots.txt是否在localhost的本地Web服務器上工作?
服務器上的robots.txt文件的url是http://localhost/myserver/robots.txt
。
robots.txt文件的內容是
User-agent: *
Disallow:/
我如何驗證robots.txt文件適用於本地Web服務器?
我是否需要在本地安裝一些網絡爬蟲或搜索引擎並運行它來驗證?
謝謝。
我將robots.txt文件添加到本地Web服務器的根目錄。如何測試robots.txt是否在localhost的本地Web服務器上工作?
服務器上的robots.txt文件的url是http://localhost/myserver/robots.txt
。
robots.txt文件的內容是
User-agent: *
Disallow:/
我如何驗證robots.txt文件適用於本地Web服務器?
我是否需要在本地安裝一些網絡爬蟲或搜索引擎並運行它來驗證?
謝謝。
如何驗證robots.txt文件適用於本地Web服務器?
據我所知,robots.txt
文件不會阻止抓取工具抓取您的網站。它只是堅持不要。這意味着你不能驗證這些作品是否不是。
取而代之,您可以並應該驗證的是,抓取工具在訪問您的網站時能夠讀取您的robots.txt
。這可以通過遵循約定來確保。
這意味着您的robots.txt
文件應該存在於根路徑下。 如果您打算在xyz
域名下託管您的網站,那麼http://xyz/robots.txt
應該是該位置。
欲瞭解更多信息,請查閱this。
如果您的網站處於活動狀態,則可以使用任何在線工具來驗證是否可以訪問robots.txt。一種這樣的工具是this。
您正在本地運行爬網程序?或者,對於某個網站將在某個時間點發布在網站上的情況,您現在想要測試robots.txt(即網站在線時它是否按預期工作)? – unor
我想在開發環境中進行測試,尚未進入我尚未訪問的生產環境中。 – Tim