bigdata

0熱度

2回答

我'初學者卡夫卡 1 /我下載卡夫卡的1.0.0版本 2 /我在bith server.properties更改的數據目錄位置和屬性zookeeper.properties \設置\ server.properties \ CONFIG \ zookeeper.properties 3 /當我嘗試啓動動物園管理員和卡夫卡服務器我有一個錯誤「Files was unexpected」 D：\ ka

0熱度

1回答

使用cloudera hadoop自動化sqoop增量UI

有沒有什麼辦法可以使用除時間戳以外的列值自動執行sqoop導入。我試圖在我的表格中使用一列（ID）。但它沒有奏效。以下是示例代碼，我正在使用cloudera hadoop UI進行自動化。問題是最後一個沒有自動更新的值。 import --connect jdbc:mysql://172.26.122.123:3306/books --username

1熱度

1回答

在TB級數據集

我試圖計算位數計算位數高效的算法（可近似具有一定精確度保證或錯誤邊界）一個巨大的數據集（萬億字節的數據）。我如何有效地計算分位數。要求是 1) Can be computed efficiently (one-pass) or in a distributed way (merging) 2) High accuracy (or at least can be controlled) 3) C

1熱度

1回答

用於太字節大小數據的大容量渲染和可視化庫

我想要將幾千兆字節到幾太字節之間的三維數據卷可視化。一種解決辦法是推出自己的產品，但這可能需要一些時間。爲了避免這種情況，我目前正在探索當前可用的解決方案。我越查看它，我發現的軟件就越多。一些實例包括ParaView/VTK，OSPRay，Embree，Splotch，NVIDIA GVDB/OptiX等一些該軟件提供用於可視化的完整解決方案，和數據操作（例如，ParaView/VTK）。其他人

1熱度

2回答

在aws的360gb文本文件中將1620列轉換爲360gb文本文件中的行

-1熱度

1回答

Java中的大數據處理

我正在一個項目中接收大約10個文件，每個文件包含大小爲200GB的文件。我的項目要求是從每個文件中提取數據，並與其他文件進行連接並提取數據。 E.G像我有文件1.txt我有帳戶ID和我有文件2.txt，我有帳戶ID和帳戶名稱。根據第一個文件的帳戶ID我需要從第二個文件提取數據。這樣我需要對10個文件中的每一個執行操作並創建最終的輸出文件。我目前正在Java中這是真正花時間的過程。大約需要4到5

0熱度

2回答

如何獲得薪水高於其部門平均水平的員工的姓名和部門？

我是Hadoop和pig的新手。根據問題我能夠深入研究，直到下面的腳本，但我怎麼能比較個人的薪水與他的部門的平均工資。以下是寫入得到各部門的平均工資腳本 A = LOAD 'Assignment_1_Input.log' USING PigStorage('\t') as (id:int,name:chararray,age:int,salary:int,deptid:int); B = GRO

0熱度

1回答

每天處理10行B數據以創建變量（計算列）的最佳方法是什麼？

想象一下，你有一個歷史數據，每天有數百萬行的數據被添加到它。有必要每天處理整個數據並更新變量。您如何使用大數據平臺解決這個問題？如果需要，歡迎提供更多細節。

0熱度

1回答

TPC DS查詢和數據庫

我在哪裏可以找到TPC DS查詢和數據集？這是我的項目工作之一，我需要分析他們在紅移和雪花上的表現。

0熱度

3回答

局部加載數據到數據庫蜂房面臨的問題

hive>LOAD DATA INPATH '/hadoop/abc/POC2_Setup/input/warr2_claims_5441F.csv' OVERWRITE INTO TABLE baumuster_pre_analysi_text; 失敗：1:17 SemanticException線的路徑無效 '/hadoop/abc/POC2_Setup/input/warr2_claim