2015-01-26 84 views
2

我試圖將一些數據導入到數據流中,但數據不在雲存儲中 - 這是一個rss feed,我通常會每隔x個小時檢查一次。有沒有一種方法可以直接使用SDK,或者我必須首先以其他方式將文件存儲到雲存儲中。Http獲取/張貼到數據流

在此先感謝。

回答

2

數據流不提供RSS源的來源。

雖然您可以從ParDo發出HTTP請求來獲取數據。例如,假設提要允許您在某個時間範圍內提取郵件。然後,您可以創建一個輸入集合,其中每個記錄表示一段時間(例如一個小時)。然後,您可以編寫一個ParDo,它將獲取該時間範圍內的消息併發出它們。

如果您是流式早期訪問預覽的一部分,那麼 一個解決方案就是編寫一個App Engine應用程序(或同等產品),每隔X小時檢查一次RSS源,然後使用Google Cloud PubSub發佈數據。然後您可以使用PubSubIO來讀取Dataflow中的這些事件。

+0

這是有道理的...我試圖創建類似HttpIO.Read,但我想再次出現問題,因爲在應用程序引擎上我們提供了獲取url API,但是當我在本地測試api不可用時。你知道是否有一個簡單的解決方案。我已經看了谷歌HTTP客戶端,但不能看到一個「明顯」的方式來使用它:( – billy1380 2015-01-27 10:19:33

+0

感謝您的酒吧子建議,值得一試我 – billy1380 2015-01-27 10:20:36

+0

我不知道我明白App Engine問題的問題。您是否澄清了您嘗試訪問DirectPipelineRunner的內容?您是否試圖訪問App Engine API或App Engine上運行的應用程序? – 2015-01-27 18:43:39