bigdata

    8熱度

    4回答

    在我的工作,高效的解決方案,我是制定和實施以下問題的解決方案:從特定數據集 鑑於30M記錄的數據集提取(鍵,值)元組字段,按鍵和值將它們分組,存儲每個鍵的相同值的數量。爲數據庫中的每個鍵寫入5000個最常用的值。每個數據集行最多可包含100個以序列化XML形式存在的(鍵值)元組。 我想出了這樣的解決方案(使用Spring-Batch): 批處理作業步驟: 步驟1.遍歷數據集行並提取(鍵,值)元組。

    4熱度

    1回答

    我正在尋找一個框架,框架組合,最佳實踐或關於使用Hadoop可視化大型數據集的教程。 我是而不是正在尋找一個框架來可視化運行Hadoop作業或管理Hadoop上磁盤空間的機制。我正在尋找一種方法或指導方針,使用圖形和圖表等方式可視化HDFS中包含的數據。 例如,假設我有一組數據點存儲在HDFS中的多個文件中,並且我希望顯示數據的histogram。我唯一的選擇是編寫一個自定義地圖/縮減作業,試圖找

    2熱度

    2回答

    MongoDB會處理幾TB數據嗎?我讀過帖子,說Mongo在1TB的數據方面效果不錯,對於更大型的套件,我應該使用HBase。真的嗎? 我需要存儲和處理幾TB的文本數據。

    0熱度

    2回答

    哪一種你認爲的可擴展性,但快速發展是處理最好的語言分析了一些GB的數據信息,同時考慮到這些限制的(獲得統計結果): 開放的源代碼。 數據可以用矩陣進行分析。 發展時間有限。 加工成本也有限。 爲,例如,八度,Fortran語言,C++,C,Python等

    3熱度

    1回答

    我HDFS中存儲的日誌文件的數量龐大,看起來像下面這樣: 2012-10-20 00:05:00; BEGIN ... SQL ERROR -678: Error message ... 2012-10-20 00:47:20; END 我想知道如何通常在某個時間段內發生某些sql錯誤代碼,例如: 從2012年10月20日0:00至2012年10月20日凌晨1:00發生多少次678 S

    0熱度

    1回答

    我需要編寫一個存儲大量數據的系統,包括結構化和非結構化數據。我的查詢將查找文本以及二進制信息。 我正在尋找符合這些要求的解決方案。我遇到了Splunk,這似乎是非常用戶友好的,並提供了一個很好的API。但是,它似乎非常注重日誌,似乎它只支持文本搜索(無二進制)。我的數據是不是一個日誌,它只是大量的原始文本/我需要在搜索二進制數據的... 所以我的問題是: 能的Splunk是一個很好的解決我的問題?

    0熱度

    1回答

    在我的演示機器上:我有Windows Server 2008 R2,它也是域控制器。我通過Web平臺安裝程序爲Windows服務器安裝了HDInsight,但是我沒有看到IIS下使用哪個站點管理羣集。所以想知道是否在域控制器上不支持HDInsight?還是有我應該檢查的其他配置。謝謝!

    2熱度

    1回答

    我正在尋找大數據解決方案來存儲具有地理位置(Lat/Lng)的記錄,然後執行鄰近搜索。 例如,將所有建築物存儲在數據庫中,然後查詢最接近用戶當前位置的建築物。 我期望有大量插入的實體,所以這必須是一個大數據解決方案。 謝謝!

    3熱度

    2回答

    有沒有什麼辦法可以在我的公司服務器上託管大型查詢軟件? 公司不希望數據位於自己的數據中心以外的其他地方。 什麼是BigQuery替代方案? (雲以及託管)

    4熱度

    1回答

    我想做一個涉及3個表的外連接。我試着用這樣的: features = JOIN group_event by group left outer, group_session by group, group_order by group; 我想group_event的所有行存在於輸出,即使一個或既不其他2個的關係有一個匹配。 上述命令不起作用。很明顯,因爲它不應該工作(http://pig.ap