2011-02-01 50 views
8

假設數據源設置了一個嚴格的基於IP的節流閥。如果油門開始在下載數據的1%時開始拒絕他們的請求,網絡抓取工具是否有辦法下載數據?網絡刮板是否可以繞過好的油門保護?

我能想到的黑客在這裏使用的唯一技術是某種代理系統。但是,似乎代理人(即使很快)最終都會達到油門。

更新:下面的一些人提到了像雅虎管道和Tor這樣的大代理網絡,但是這些IP範圍或已知的出口節點不能被列入黑名單嗎?

回答

7

十萬poxies列表可以FREE進行編譯。 IPv6地址可以租用便士。地獄,攻擊者可以以每小時2-7美分的價格啓動亞馬遜EC2微型實例。

而你想阻止人們刮你的網站?互聯網不會那樣工作,並希望它永遠不會。

(我發現IRC服務器在客戶端上做了一個端口掃描,看看下面的端口是否打開:8080,3128,1080。但是有代理服務器使用不同的端口,並且運行代理服務器也有合法的原因或者打開這些端口,就像運行Apache Tomcat一樣,你可以通過使用YAPH來查看客戶端是否運行代理服務器,實際上你也會使用攻擊者來對付它們;)

0

我聽說有人用Yahoo Pipes來做這種事情,本質上是使用雅虎作爲代理來提取數據。

+0

不過,是不是雅虎IP最終會被扼殺? – babonk 2011-02-01 21:57:23

+1

@babonk - 可能,但雅虎有很多IP ... – 2011-02-01 21:57:50

2

有人使用Tor會每隔幾分鐘跳一次IP地址。我曾經運行一個網站,這是一個問題,並採取阻止已知Tor出口節點的IP地址,每當檢測到過度的刮擦。您可以實現這一點,如果你能找到Tor出口節點的定期更新的列表,例如,https://www.dan.me.uk/tornodes

0

也許嘗試在amazon ec2實例上運行你的scraper。每當你受到限制,啓動一個新的實例(在新的IP),並殺死舊的。

1

您可以使用P2P爬行網絡來完成此任務。將會有很多IPs可用,並且如果其中一個被限制,則不會有問題。此外,您可以使用前面的答案中建議的一些代理配置來組合許多客戶端實例。

我想你可以使用YaCy,一個P2P開源的抓取網絡。

0

這取決於攻擊者獲取數據的時間。如果大部分數據是靜態的,攻擊者可能會比較有趣地運行他的刮板,例如50天。如果他在DSL線路上可以每天兩次請求「新」IP地址,那麼1%的限制不會對他造成太大的傷害。當然,如果你更快地需要數據(因爲它很快就過時了),有更好的方法(使用EC2實例,如果公衆對收集的數據有興趣,可以設置一個BOINC項目等等)。

或者有一個金字塔計劃:「讓10個人來運行我的抓取工具,你會得到PORN,或者讓100個人抓取它,並且你會得到很多的PORN」,因爲幾年前它很常見填充網站。由於涉及的競爭(誰獲得最多推薦人),您可能很快就會獲得很多運行爬蟲的節點,只花很少的錢。

1

希望得到信息的刮刀會得到信息。超時,更改代理名稱,代理服務器,當然EC2/RackSpace或任何其他雲服務都有能力啓動和停止具有新IP地址的服務器。