2009-06-09 61 views
3

我正在建立一個搜索引擎(爲了好玩),它讓我感到驚訝,可能我的小項目可能會通過點擊廣告和各種問題來激怒havok。良好webcrawler'禮儀'的指導

那麼良好的webcrawler'禮儀'準則是什麼?

事情映入腦海:

  1. 遵守robot.txt的指令
  2. 限制的同時請求同一個域
  3. 不要跟着廣告鏈接的數量?

從點擊廣告停止履帶 - 這一個是特別是在我的腦海中的那一刻...我如何阻止「點擊」我的機器人上的廣告?如果它直接轉到廣告中的網址,那麼它會被視爲點擊?

+0

有沒有人有足夠的資源來查找和解析域名robot.txt? – 2009-06-09 13:34:11

回答

3

您不只讀取robots.txt指令。您還應該看到meta tags with noindex and nofollow

關於廣告問題,我不確定,但我想如果您剛剛閱讀鏈接,然後再輸入一些頁面,輸入的頁面將沒有關於您如何獲得該地址的信息,不收取網站的「僞點擊」

2

不要跟隨標記爲rel =「nofollow」的鏈接。

此外,您不必擔心廣告。如果您只抓取網頁的HTML文本,那麼在大多數情況下,您將無法獲得廣告鏈接 - 它們是在使用JavaScript的客戶端上生成的。