2015-09-06 54 views
14

對不起,如果這個問題是在錯誤的網站上提出的,但我無法弄清楚問哪個其他網站。是否允許網頁抓取?

所以,我的工作,需要從其他網站上的某些統計數據的項目,我創建了一個HTML刮刀自動獲取這個數據,每15分鐘。然而,我現在停止了這個機器人,就像他們的使用條款一樣,他們提到他們不允許。

我真的很想尊重這一點,特別是如果有法律禁止我接收這些數據,但我一直通過電子郵件多次與他們聯繫,沒有一個答案,所以現在我得出結論:如果它是合法的,我會簡單地獲取數據。

在某些論壇,我讀過,這是合法的,但我寧願在這裏得到了更「精準」的答案在計算器上。

而且我們說,其實這是不違法的,他們將有什麼軟件來發現我的機器人制作,每15分鐘幾個連接?

而且,在談論採取他們的數據時,我們談論每個「團隊」一個單一的數字,這個數字,我會轉移到我們自己的號碼。

+1

我投票結束這個問題作爲題外話題,因爲它要求合法的屏幕抓取。這取決於很多因素,在這裏無法合理回答。 –

+0

答案是「它取決於」 –

+0

恕我直言,如果您遵守'robots.txt'內的設置,那麼站長無需抱怨。 – ankhzet

回答

0

該站點的根文件夾中必須有robots.txt文件。

有指定的路徑,即forbidden騷擾的抓手,那些,這是allowed(具有可接受的超時指定)。

如果這個文件不存在 - 什麼是允許的,而你採取網站所有者不承擔任何責任不能提供這些信息。


此外,here你可以找到關於robots exclusion standard一些解釋。

+1

命中並運行?好的意識形態... – ankhzet

+0

只有當他們沒有戴着一個標有「請不要打我」的標誌時。 – FraggaMuffin

0

某些網站阻止漫遊器抓取和提取數據。其他一些人會表示他們不希望被他們的TOS頁面中的漫遊器抓取。如果他們沒有這些,網絡爬行不應該給你帶來麻煩。然而,雙重檢查總是一個好主意。