我需要運行一個網絡爬蟲,並且我想從EC2開始,因爲我想讓HTTP請求來自不同的IP範圍,所以我不會被阻止。所以我認爲在EC2實例上發佈它可能會有所幫助,但是我找不到有關出站IP範圍的信息。我不想花時間去計算EC2和分佈式數據的額外複雜性,只發現所有的實例都使用相同的地址塊,而且無論如何我都會被服務器阻塞。EC2實例是否可以設置爲來自不同的IP範圍?
注意:這不適用於DoS攻擊或任何其他攻擊。我試圖爲了合法的商業目的收集數據,我尊重robots.txt,並且每秒只發出一個請求,但主持人仍然關閉我。
評論者Paul Dixon建議,阻止即使我的謙虛爬行的行爲表明主機不希望我抓取它們,因此我不應該這樣做(即使假設我可以解決阻塞問題)。人們是否同意這一點?
如果主人正在檢測你的刮蹭和關閉你,也許你應該尊重他們的願望,而不是基於它的業務? – 2010-06-03 12:57:10
FWIW,我曾經在pastebin.com上做過這種封鎖,看到EC2擁有的IP永遠是紅旗。你可以使用Tor,但是可以通過獲取一個動態的退出節點列表並阻止這些ips來阻止它。 – 2010-06-03 12:58:58
如果這是一個合法的業務問題,爲什麼不聯繫該主機的管理員?外部IP始終來自易於識別爲EC2的範圍,無論您如何分配實例。 – sfussenegger 2010-06-03 13:00:51