Hadoop數據提取

我正在嘗試創建一個打擊Hadoop並將數據提取到本地Windows計算機的進程。我成功地在ODBC上創建並能夠測試連接。進一步研究我發現我需要使用Microsoft Hive odbc，並且我無法在連接上獲得成功的測試。我願意使用不同的工具，但希望通過最好的方式來完成我想要做的事情。我正在查找的數據也存在於ftp服務器上，並且已經加載到Hadoop，我可以從ftp服務器獲取它，但寧願將其從Hadoop中提取出來。我是Hadoop的全新人物，並且我已經研究和閱讀，但一直未能找到解決方案。我知道解決方案在那裏，我只是沒有找到正確的地方，有人可以請我指出正確的方向嗎？Hadoop數據提取

來源

2017-09-04 jazmynn

我覺得你很可能不高興。你的主要問題是什麼？要確定什麼是重點，我建議你和你的同事談談。 – hiropon

命中Hadoop和提取數據到我的本地Windows機器

的第一個建議：Apache的星火

我成功地在ODBC創建，並能測試連接

Hadoop不提供ODBC ...配置單元

進一步研究，我發現我需要使用微軟蜂巢ODBC

是在Azure的數據？這就是你會使用微軟的驅動程序的唯一原因，據我可以告訴

想的最佳途徑一些輸入來完成什麼，我試圖做

這一點是不清楚...你已經提到了SQL工具到目前爲止，這是不能通過ODBC訪問的......

如果你在Hive中存儲數據，JDBC/ODBC可以正常工作，但是如果你決定的話Spark會更快在Hadoop中的YARN羣集上運行它。

我可以從FTP服務器得到它，但寧願從Hadoop的

個人拉，我不建議你從Hadoop的

Hadoop的得到它，（更準確的說， HDFS）不是FTP的替代品
如果您的文件「足夠小」以便在FTP中正常存儲，則沒有理由將它們提取到HDFS，因爲HDFS經過優化以處理相當大的文件。
您是hadoop的全新用戶，並且您建議您可以輕鬆地拉取FTP文件。

第二個建議：如果你是死心塌地對Hadoop的生態系統中使用的工具，但沒有明確HDFS，嘗試Apache Nifi項目，它提供了一個GetFTP processor。

來源

2017-09-05 01:54:26

Hadoop數據提取

回答

相關問題