bigdata

    0熱度

    2回答

    我'初學者卡夫卡 1 /我下載卡夫卡的1.0.0版本 2 /我在bith server.properties更改的數據目錄位置和屬性zookeeper.properties \設置\ server.properties \ CONFIG \ zookeeper.properties 3 /當我嘗試啓動動物園管理員和卡夫卡服務器 我有一個錯誤「Files was unexpected」 D:\ ka

    0熱度

    1回答

    有沒有什麼辦法可以使用除時間戳以外的列值自動執行sqoop導入。我試圖在我的表格中使用一列(ID)。但它沒有奏效。以下是示例代碼,我正在使用cloudera hadoop UI進行自動化。問題是最後一個沒有自動更新的值。 import --connect jdbc:mysql://172.26.122.123:3306/books --username

    1熱度

    1回答

    我試圖計算位數計算位數高效的算法(可近似具有一定精確度保證或錯誤邊界)一個巨大的數據集(萬億字節的數據)。我如何有效地計算分位數。要求是 1) Can be computed efficiently (one-pass) or in a distributed way (merging) 2) High accuracy (or at least can be controlled) 3) C

    1熱度

    1回答

    我想要將幾千兆字節到幾太字節之間的三維數據卷可視化。一種解決辦法是推出自己的產品,但這可能需要一些時間。爲了避免這種情況,我目前正在探索當前可用的解決方案。我越查看它,我發現的軟件就越多。一些實例包括ParaView/VTK,OSPRay,Embree,Splotch,NVIDIA GVDB/OptiX等 一些該軟件提供用於可視化的完整解決方案,和數據操作(例如,ParaView/VTK)。其他人

    1熱度

    2回答

    我有一個管道分隔的文本文件,它是360GB壓縮文件(gzip)。 它有超過1,620列。我不能準確顯示字段名,但這裏是它基本上是什麼: primary_key|property1_name|property1_value|property800_name|property800_value 12345|is_male|1|is_college_educated|1 嚴重的是,有超過這些屬性名

    -1熱度

    1回答

    我正在一個項目中接收大約10個文件,每個文件包含大小爲200GB的文件。我的項目要求是從每個文件中提取數據,並與其他文件進行連接並提取數據。 E.G像我有文件1.txt我有帳戶ID和我有文件2.txt,我有帳戶ID和帳戶名稱。根據第一個文件的帳戶ID我需要從第二個文件提取數據。 這樣我需要對10個文件中的每一個執行操作並創建最終的輸出文件。 我目前正在Java中這是真正花時間的過程。大約需要4到5

    0熱度

    2回答

    我是Hadoop和pig的新手。根據問題我能夠深入研究,直到下面的腳本,但我怎麼能比較個人的薪水與他的部門的平均工資。以下是寫入得到各部門的平均工資腳本 A = LOAD 'Assignment_1_Input.log' USING PigStorage('\t') as (id:int,name:chararray,age:int,salary:int,deptid:int); B = GRO

    0熱度

    1回答

    想象一下,你有一個歷史數據,每天有數百萬行的數據被添加到它。有必要每天處理整個數據並更新變量。您如何使用大數據平臺解決這個問題? 如果需要,歡迎提供更多細節。

    0熱度

    1回答

    我在哪裏可以找到TPC DS查詢和數據集?這是我的項目工作之一,我需要分析他們在紅移和雪花上的表現。

    0熱度

    3回答

    hive>LOAD DATA INPATH '/hadoop/abc/POC2_Setup/input/warr2_claims_5441F.csv' OVERWRITE INTO TABLE baumuster_pre_analysi_text; 失敗:1:17 SemanticException線的路徑無效 '/hadoop/abc/POC2_Setup/input/warr2_claim