2017-09-04 209 views
0

我正在嘗試創建一個打擊Hadoop並將數據提取到本地Windows計算機的進程。我成功地在ODBC上創建並能夠測試連接。進一步研究我發現我需要使用Microsoft Hive odbc,並且我無法在連接上獲得成功的測試。我願意使用不同的工具,但希望通過最好的方式來完成我想要做的事情。我正在查找的數據也存在於ftp服務器上,並且已經加載到Hadoop,我可以從ftp服務器獲取它,但寧願將其從Hadoop中提取出來。我是Hadoop的全新人物,並且我已經研究和閱讀,但一直未能找到解決方案。我知道解決方案在那裏,我只是沒有找到正確的地方,有人可以請我指出正確的方向嗎?Hadoop數據提取

+0

我覺得你很可能不高興。你的主要問題是什麼?要確定什麼是重點,我建議你和你的同事談談。 – hiropon

回答

0

命中Hadoop和提取數據到我的本地Windows機器

的第一個建議:Apache的星火

我成功地在ODBC創建,並能測試連接

Hadoop不提供ODBC ...配置單元

進一步研究,我發現我需要使用微軟蜂巢ODBC

是在Azure的數據?這就是你會使用微軟的驅動程序的唯一原因,據我可以告訴

想的最佳途徑一些輸入來完成什麼,我試圖做

這一點是不清楚...你已經提到了SQL工具到目前爲止,這是不能通過ODBC訪問的......

如果你在Hive中存儲數據,JDBC/ODBC可以正常工作,但是如果你決定的話Spark會更快在Hadoop中的YARN羣集上運行它。

我可以從FTP服務器得到它,但寧願從Hadoop的

個人拉,我不建議你從Hadoop的

  1. Hadoop的得到它,(更準確的說, HDFS)不是FTP的替代品
  2. 如果您的文件「足夠小」以便在FTP中正常存儲,則沒有理由將它們提取到HDFS,因爲HDFS經過優化以處理相當大的文件。
  3. 您是hadoop的全新用戶,並且您建議您可以輕鬆地拉取FTP文件。

第二個建議:如果你是死心塌地對Hadoop的生態系統中使用的工具,但沒有明確HDFS,嘗試Apache Nifi項目,它提供了一個GetFTP processor