回答

1

像Flink或Spark這樣的通用數據處理引擎可以讓你定義自己的數據類型和功能。

如果您有非結構化或半結構化數據,您的數據類型可以反映這些屬性,例如通過使某些信息可選或使用靈活的數據結構(嵌套類型,列表,地圖等)對其進行建模。您的用戶定義函數應該知道某些信息可能並不總是存在,並且知道如何處理這些情況。

因此,處理半結構化或非結構化數據並不是免費的。它必須明確指定。事實上,這兩個系統都把重點放在用戶定義的數據和功能上,但最近增加了API來簡化結構化數據的處理(Flink:Table API,Spark:DataFrames)。

+0

我可以分別處理結構化和非結構化數據,然後在最後加入它們(輸出)! –

+0

如果這是一個問題,是的,你可以。 –