2017-04-21 68 views
0

我正在尋找做以下與Apache梁。
張量流神經網絡的特定預處理。嵌套管道在阿帕奇梁

  • 對於文件夾中的每個文件。
    • 從文件
      • 工藝生產線各行花車

我需要在每個回是彩車的每個文件的2D名單的一維列表。

我想我可以通過創建嵌套管道來實現這一點。
我可以在另一個管道的ParDo中創建和運行管道。

這似乎效率低下,但我的問題似乎是一個非常標準的用例。

  • 有沒有一種工具可以在apache中更好地執行此操作?
  • 有沒有一種方法來重構我的問題,使其在Apache中更好地工作?
  • 嵌套管道沒有我認爲的那麼糟嗎?

感謝

回答

1

阿帕奇梁是用於機Tensorflow學習預處理數據的絕佳工具。有關此一般用例的更多信息和tf.Transform可在post中找到。

沒有描述似乎表明需要「嵌套管道」。處理目錄中每個文件的每一行是一個簡單的TextIO.Read轉換。目前還不清楚你的要求是什麼,但總的來說,將線路分成浮動和與其他線路連接是簡單的ParDo和分組操作。

作爲一般指導,我會避免嵌套管道,並嘗試將問題分解爲適合單個管道。

+0

謝謝,我不明白分組功能。 – nburn42