bigdata

8熱度

4回答

在我的工作，高效的解決方案，我是制定和實施以下問題的解決方案：從特定數據集鑑於30M記錄的數據集提取（鍵，值）元組字段，按鍵和值將它們分組，存儲每個鍵的相同值的數量。爲數據庫中的每個鍵寫入5000個最常用的值。每個數據集行最多可包含100個以序列化XML形式存在的（鍵值）元組。我想出了這樣的解決方案（使用Spring-Batch）：批處理作業步驟：步驟1.遍歷數據集行並提取（鍵，值）元組。

4熱度

1回答

使用Hadoop可視化大型數據集

我正在尋找一個框架，框架組合，最佳實踐或關於使用Hadoop可視化大型數據集的教程。我是而不是正在尋找一個框架來可視化運行Hadoop作業或管理Hadoop上磁盤空間的機制。我正在尋找一種方法或指導方針，使用圖形和圖表等方式可視化HDFS中包含的數據。例如，假設我有一組數據點存儲在HDFS中的多個文件中，並且我希望顯示數據的histogram。我唯一的選擇是編寫一個自定義地圖/縮減作業，試圖找

2熱度

2回答

MongoDB可以處理TB的數據嗎？

MongoDB會處理幾TB數據嗎？我讀過帖子，說Mongo在1TB的數據方面效果不錯，對於更大型的套件，我應該使用HBase。真的嗎？我需要存儲和處理幾TB的文本數據。

0熱度

2回答

BigData分析：

哪一種你認爲的可擴展性，但快速發展是處理最好的語言分析了一些GB的數據信息，同時考慮到這些限制的（獲得統計結果）：開放的源代碼。數據可以用矩陣進行分析。發展時間有限。加工成本也有限。爲，例如，八度，Fortran語言，C++，C，Python等

3熱度

1回答

分析總誤差項次數的時間框架從日誌文件中有一個Hadoop MapReduce工作

我HDFS中存儲的日誌文件的數量龐大，看起來像下面這樣： 2012-10-20 00:05:00; BEGIN ... SQL ERROR -678: Error message ... 2012-10-20 00:47:20; END 我想知道如何通常在某個時間段內發生某些sql錯誤代碼，例如：從2012年10月20日0:00至2012年10月20日凌晨1:00發生多少次678 S

0熱度

1回答

Splunk和其他數據庫解決方案

我需要編寫一個存儲大量數據的系統，包括結構化和非結構化數據。我的查詢將查找文本以及二進制信息。我正在尋找符合這些要求的解決方案。我遇到了Splunk，這似乎是非常用戶友好的，並提供了一個很好的API。但是，它似乎非常注重日誌，似乎它只支持文本搜索（無二進制）。我的數據是不是一個日誌，它只是大量的原始文本/我需要在搜索二進制數據的... 所以我的問題是：能的Splunk是一個很好的解決我的問題？

0熱度

1回答

windows服務器上的Hadoop：HDInsight for windows服務器是否支持在域控制器上運行？

在我的演示機器上：我有Windows Server 2008 R2，它也是域控制器。我通過Web平臺安裝程序爲Windows服務器安裝了HDInsight，但是我沒有看到IIS下使用哪個站點管理羣集。所以想知道是否在域控制器上不支持HDInsight？還是有我應該檢查的其他配置。謝謝！

2熱度

1回答

我可以使用什麼大數據產品或平臺來存儲地理數據？

我正在尋找大數據解決方案來存儲具有地理位置（Lat/Lng）的記錄，然後執行鄰近搜索。例如，將所有建築物存儲在數據庫中，然後查詢最接近用戶當前位置的建築物。我期望有大量插入的實體，所以這必須是一個大數據解決方案。謝謝！

3熱度

2回答

託管的BigQuery實例

有沒有什麼辦法可以在我的公司服務器上託管大型查詢軟件？公司不希望數據位於自己的數據中心以外的其他地方。什麼是BigQuery替代方案？（雲以及託管）

4熱度

1回答

豬：超過2個關係的外連接

我想做一個涉及3個表的外連接。我試着用這樣的： features = JOIN group_event by group left outer, group_session by group, group_order by group; 我想group_event的所有行存在於輸出，即使一個或既不其他2個的關係有一個匹配。上述命令不起作用。很明顯，因爲它不應該工作（http://pig.ap