2017-05-03 44 views
-2

每個月我都會收到一個大約2GB大小的CSV文件。我在MySql數據庫的表中導入這個文件,這幾乎是即時的。Hadoop起始點

然後使用PHP,我查詢這個表,過濾這個表中的數據,並寫入相關的數據到其他幾個表。這需要幾天 - 所有查詢都進行了優化。

我想將這些數據移到Hadoop,但不明白應該是什麼出發點。我正在研究Hadoop,我知道這可以使用Sqoop完成,但仍然太困惑了,從如何將這些數據遷移到Hadoop開始。

+0

把它移到HDFS的目的是什麼? – franklinsijo

+0

規模日益擴大,加速需要數​​天的流程。 – phpMax

回答

1

使用Apache Spark可能在Python中,因爲它很容易入門。儘管Spark的使用可能有點過分,但考慮到其速度和可擴展性,在這方面做出一些額外的努力並沒有什麼壞處。

您可能想切換到Spark直接提供API訪問的任何其他數據庫(Hive/Hbase等)。這是可選的,因爲只需少量額外代碼,只有在您不想更改時纔可以使用MySql。

整體設計會是這樣的:

  • 您每月的CSV文件將是對HDFS的已知位置。
  • 星火應用程序將讀取這個文件,做任何轉換,將結果寫入到MySql(或任何其它存儲)

系統涉及:

  • HDFS
  • 星火
  • MySQL的/其他存儲
  • 可選集羣使其可擴展
+0

謝謝,完美! – phpMax