2009-12-27 25 views
2

我問這個問題是因爲我正在創建一個蜘蛛來從blogger.com收集大學數據可視化項目的數據。如果我多次請求,請<如何在此插入流行網站>限制我訪問他們的網站?

蜘蛛會在博主的browse function上尋找約17,000個值,並且(匿名)保存某些符合正確標準的值。

我一直在運行蜘蛛(用PHP編寫),它工作正常,但我不想讓我的IP列入黑名單或類似的東西。有沒有人有企業網站的任何知識和他們對這類事情的限制?

此外,如果有適當的限制,我能做些什麼來規避它們?目前我所能想到的僅僅是幫助問題;在對站點的調用之間添加一個隨機延遲(0到5秒之間)或通過隨機代理運行腳本來掩飾請求。

通過不得不做類似上述方法的事情,這讓我覺得自己好像在做錯事。如果他們爲了任何原因阻止我,我會很生氣,因爲blogger.com由Google所有,他們的主要產品是一個網絡蜘蛛。 Allbeit,他們的蜘蛛不會只將它的請求發送到一個網站。

回答

10

這很可能是他們有某種限制,是的有辦法繞過他們(例如機器人農場和使用隨機代理),但它們很可能沒有一個是完全合法的,技術上也不可行:)

如果您正在訪問博客,您是不是可以使用API key登錄並直接查詢數據?與抓取他們的頁面相比,它更可靠,更容易出問題,反正可能會被禁止,並且一旦請求的數量足夠大,他們開始關心就會導致麻煩。 Google非常慷慨地提供每個API密鑰允許的流量。

如果一切都失敗了,爲什麼不寫一封電子郵件給他們。谷歌對學術項目友善,並且如果需要的話,他們可能會給予您更多的流量。

+0

+1用於API的使用。即使是API也會有一定的限制(例如每秒呼叫次數爲x),但它會更穩定,尤其是合法。 – keyboardP 2009-12-27 18:34:06

+0

謝謝,我不知道甚至有一個API。但是,Google的博客API僅允許您按用戶進行操作。我需要根據每個位置或每個興趣點獲取相關信息。即我需要讓所有用戶擁有特定的位置或興趣。 (注意:當我說讓所有用戶,我實際上並不需要所有的用戶,100-500之間會沒事的)。 我想,我需要通過電子郵件發送電子郵件或更改我的方法。 – betamax 2009-12-27 18:44:03

+0

問他們總是包含如果他們拒絕你,他們知道你是誰的風險。但我認爲最好是冒着一些限制的風險,並將其列入黑名單。 – 2009-12-27 18:47:18

1

如果你想知道的話,寫一個電子郵件到blogger.com並詢問他們。

-2

你可以通過TOR來申請,你每次都會得到一個不同的ip地址。

3

由於您正在編寫一個蜘蛛,請確保它讀取robots.txt文件並進行相應處理。另外,HTTP規則之一是在同一臺服務器上不要有超過2個併發請求。別擔心,Google的服務器真的很強大。如果你只讀一頁,他們可能甚至不會注意到。如果你注射1秒的間隔,它將是完全無害的。另一方面,使用僵屍網絡或其他分佈式方法被認爲是有害的行爲,因爲它看起來像DDOS攻擊。你真的不應該朝那個方向思考。

+0

+1好點,尤其是看到他關心他IP地址的好名聲和聲譽。 – 2009-12-27 18:41:57

+0

感謝robots.txt上的提示,我還沒有考慮到這一點。當你這樣說時,它會讓我看起來好像我的流量會在所有其他訪問博客的流量中丟失,而我可以想象它會發生什麼。 *但是*他們必須有適合我的要求的系統。 – betamax 2009-12-27 18:48:04

+0

服從'robots.txt'的主要+1。 – ceejayoz 2009-12-27 19:45:22

相關問題