hadoop

    0熱度

    1回答

    使用brew安裝hadoop,現在想在intelliJ IDEA中運行hadoop作業。如何設置環境並解決依賴關係?

    1熱度

    1回答

    我想在nano表中使用當前時間戳在nano秒中創建一列。我怎麼能在插入數據時做到這一點?

    0熱度

    1回答

    我做了POC與的Hadoop 2.9.0作爲分佈式文件存儲系統,因此已經建立了多節點羣集安裝有1個NameNode和重新啓動後4複製因子爲2的數據節點(包括主節點)。 現在,經過一系列複製操作後,我決定停止其中一個數據節點(slave2)。然後我使用hdfs dfs -rm -skipTrash命令清除了幾GB的數據,而slave2仍然關閉。 後來我重新啓動了我停止的slave2 datanode

    0熱度

    1回答

    HDFS存儲結構化的&非結構化數據。熱線& IMPALA使我們能夠編寫SQL查詢,然後將其轉換爲MapReduce。用戶如何瞭解存儲數據的模式或者如何根據存儲的數據形成這些表格?

    1熱度

    1回答

    作爲一些背景,我們有2個目前用作生產和開發的簇。作爲其中的一部分,我們正在將生產集羣中的文件(使用hadoop distcp -update)從生產過程生成(即,它也可以作爲災難恢復集羣)複製到開發集羣。 的Hadoop版本是在兩個羣集相同的:Hadoop的2.6.0-cdh5.12.1 然而,發展集羣不僅具有實時集羣的存儲容量的約65%。爲了解決這個問題,我們有一個默認的複製因子3,用於活動,2

    0熱度

    2回答

    由於我在其中一個字段中有特殊字符,因此我想使用較小的值作爲分隔符。 Hive對分隔符(\ 0)可以正常工作,但sqoop會因NoSuchElement異常而失敗。看起來它不會將分隔符檢測爲\ 0。 這是我的配置單元的一個sqoop腳本的樣子。請任何幫助。 CREATE TABLE SCHEMA.test ( name CHAR(20), id int, dte_rep

    0熱度

    1回答

    我試圖實現服務器端分頁。數據庫光標看起來像是一個很好的方法。 Impala是否支持像關係數據庫那樣的database cursors?該文件沒有明確提及它是否存在。

    -1熱度

    1回答

    我正在一個項目中接收大約10個文件,每個文件包含大小爲200GB的文件。我的項目要求是從每個文件中提取數據,並與其他文件進行連接並提取數據。 E.G像我有文件1.txt我有帳戶ID和我有文件2.txt,我有帳戶ID和帳戶名稱。根據第一個文件的帳戶ID我需要從第二個文件提取數據。 這樣我需要對10個文件中的每一個執行操作並創建最終的輸出文件。 我目前正在Java中這是真正花時間的過程。大約需要4到5

    0熱度

    1回答

    我想在我的Mac在博客http://zhongyaonan.com/hadoop-tutorial/setting-up-hadoop-2-6-on-mac-osx-yosemite.html 博主建議來執行這些命令中發現的指令之後僞分佈式模式安裝Hadoop的2.6: $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.

    1熱度

    1回答

    我正在使用Azure Data Lake上傳文件,但仍想將文本文件內容添加到現有的Data Lake文本文件中。是否有任何選項可用於在C#?中使用Web HDFS REST API附加文本文件數據。 我是指這個鏈接enter link description here 代碼:我可以參考上面的鏈接獲得附加網址。但是,我如何使用這個URL並使用c#追加文件? private const string