Hadoop起始點

-2

每個月我都會收到一個大約2GB大小的CSV文件。我在MySql數據庫的表中導入這個文件，這幾乎是即時的。Hadoop起始點

然後使用PHP，我查詢這個表，過濾這個表中的數據，並寫入相關的數據到其他幾個表。這需要幾天 - 所有查詢都進行了優化。

我想將這些數據移到Hadoop，但不明白應該是什麼出發點。我正在研究Hadoop，我知道這可以使用Sqoop完成，但仍然太困惑了，從如何將這些數據遷移到Hadoop開始。

2017-05-03 phpMax

把它移到HDFS的目的是什麼？ – franklinsijo

規模日益擴大，加速需要數天的流程。 – phpMax

使用Apache Spark可能在Python中，因爲它很容易入門。儘管Spark的使用可能有點過分，但考慮到其速度和可擴展性，在這方面做出一些額外的努力並沒有什麼壞處。

您可能想切換到Spark直接提供API訪問的任何其他數據庫（Hive/Hbase等）。這是可選的，因爲只需少量額外代碼，只有在您不想更改時纔可以使用MySql。

整體設計會是這樣的：

系統涉及：

2017-05-04 07:55:59 code

謝謝，完美！ – phpMax

回答