2010-12-06 61 views
3

我需要編寫一個搜尋器才能從少數預選網站中提取一些信息。在Google應用引擎上爲選定的網站運行網絡爬蟲?

我知道這是一個直接的工作,但我正在考慮使用谷歌應用程序引擎來完成這件事。

可能是我可以嘗試Nutch爲我做這個。

這樣完成它的可行性有多大?

1)託管谷歌基礎設施上的爬行器 2)Nutch +應用引擎 - 它可能嗎?

回答

4

只是掃視了nutch docs,我看到這樣的評論「[T]他完全是底層的Hadoop平臺上基於Nutch的第二次發佈」 這讓我懷疑這會不會對App Engine運行。 App Engine應用運行在PythonJava沙箱中。

也就是說,您應該可以在App Egnine上放置一個基本的抓取工具。我的基本實現可能涉及啓動tasks使用urlfetch來抓取頁面,然後,可選地,插入其他任務來處理文檔鏈接到的鏈接。您可以使用scheduled tasks來關閉抓取。

+1

他基本上會從頭開始編寫爬蟲程序,不是嗎? – simpatico 2011-03-05 21:58:44