bigdata

    0熱度

    2回答

    我正在S3中構建數據湖。因此,我想將原始數據流存儲到s3中,下面是我的代碼片斷,我嘗試了本地存儲。 val tweets = TwitterUtils.createStream(ssc, None) val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText()) import

    1熱度

    1回答

    我有一個巨大的csv文件,1.37 GB,並且在R中運行glm時,它崩潰,因爲我沒有分配足夠的內存。你知道,經常出現的錯誤.. 是否有沒有其他的軟件包ff和bigmemory的替代品,因爲他們似乎不適合我,因爲我的列是一個整數和字符的混合,而且似乎與兩個包我必須指定我的列是什麼類型,無論是字符或整數。 我們即將在2018年即將把人們放在火星上;有沒有簡單的「read.csv.xxl」函數我們可以使

    1熱度

    1回答

    我有以下的表存儲在蜂巢稱爲ExampleData: +--------+-----+---| |Site_ID |Time |Age| +--------+-----+---| |1 |10:00| 20| |1 |11:00| 21| |2 |10:00| 24| |2 |11:00| 24| |2 |12:00| 20| |3 |11:00| 24| +-----

    0熱度

    2回答

    我試圖解決使用Hadoop這個問題。 查找使用平均收視率前十位的企業評級。評分最高的商家將排在第一位。回想一下,review.csv文件中的第4列代表評級。 我的Java代碼: package bd; import java.io.IOException; import java.util.ArrayList; import java.util.Collections; import ja

    2熱度

    1回答

    點燃VS蒙戈DB 是什麼點燃Apache和蒙戈DB之間的主要區別? 是mongo db一個數據庫,我們保存在磁盤中並點燃一個內存,我們保存在Ram中? 你可以一起使用它們嗎?如果是的話,你將如何結合他們?

    0熱度

    1回答

    我想比較兩個字段(比如lastnames),當我查詢時,結果應該隨其他字段填充。所以我可以選擇在solr中創建這樣的自定義字段,它可以比較字段並在查詢時提供結果?

    -4熱度

    1回答

    我一直在使用C++,並且一直在面對大數目的問題。我已經用「尋找數百分之一」的數組解決了它,但是我想知道處理大數字的python的方法。謝謝。

    0熱度

    3回答

    我想了解用於報告目的的最佳大數據解決方案是什麼? 目前我把它縮小到HBase vs Hive。 用例是我們有幾百TB的數據,有數百個不同的文件。數據是實時的,並且一直在更新。我們需要提供最有效的報告方式。我們有幾十個不同的報告頁面,每個報告由不同類型的數字和圖形數據組成。例如: 顯示所有在過去一小時內登錄系統的用戶,並且 其來源是美國。 以最多玩過的遊戲來展示一個圖表,以 最少玩過的遊戲。 系統中

    0熱度

    1回答

    我的JSON對象: { "_total": 4, "values": [ { "total-follower-count": 63911, "organic-follower-count": 6000, "paid-follower-count": 3911, "time": 1399334400000

    0熱度

    1回答

    在我們的使用案例中,我們從我們的客戶(大小約30GB)獲得大量快照文本文件(tsv,csv等)以及數百萬條記錄。數據是這樣的: ItemId (unique), Title, Description, Price etc. shoe-id1, "title1", "desc1", 10 book-id-2, "title2", "desc2", 5 無論何時,我們從客戶得到的快照,我們需要