0

我已經編寫了一個使用Selenium從網站上抓取信息並將其存儲在csv文件中的python腳本。當我手動執行它時,它在我的本地機器上運行良好,但我現在想要每幾小時自動運行一次腳本幾周,並將數據安全地保存在數據庫中。運行腳本可能需要大約5-10分鐘。使用Google Compute Engine/App Engine進行網頁搜刮

我剛剛開始使用Google Cloud,看起來有幾種方法可以通過Compute Engine或App Engine實現它。到目前爲止,我用目前爲止發現的所有三種方式(例如,讓計劃任務調用一個我的後端實例的URL,並讓該實例啓動腳本)陷入某個特定點。我試過:

  • 通過計算引擎執行腳本並使用數據存儲或雲端SQL。如果可以輕鬆設置crontab,則不清楚。
  • 在App Engine上使用任務隊列和計劃任務。
  • 在App Engine上使用後端實例和計劃任務。

因爲這是一個真正的後端腳本,不需要用戶前端,所以我很想好好聽聽他們推薦的最簡單最合適的方法。

+0

除了託管虛擬機(更像計算引擎)之外,您無法在純App Engine上運行Selenium。在配置cron作業以在Compute Engine上運行單個腳本時,您有何問題?有太多的方法來做到這一點。 – 2015-02-24 04:14:55

+0

@DmitrySadovnychyi,實際上Selenium確實在GAE上運行,如果你所做的只是'.Remote'出到外部服務。 – 2015-02-24 05:22:44

回答

2

App引擎是可行的,但只有當你將Selenium的使用限制在.remote之外的網站,例如http://crossbrowsertesting.com/ - 可行但很混亂。

我會使用計算引擎 - 而cron在任何Linux映像上使用都很簡單,請參閱例如http://www.thegeekstuff.com/2009/06/15-practical-crontab-examples/

+0

謝謝亞歷克斯。我已經啓動了腳本並使用crontab和GCE運行。順便說一下,Selenium似乎也可以通過「虛擬幀緩衝區」運行。我發現這篇文章:http://stackoverflow.com/questions/20032470/is-it-possible-to-run-selenium-scripts-using-google-compute-engine – phoxley 2015-03-07 19:12:23

相關問題