bigdata

0熱度

2回答

我正在S3中構建數據湖。因此，我想將原始數據流存儲到s3中，下面是我的代碼片斷，我嘗試了本地存儲。 val tweets = TwitterUtils.createStream(ssc, None) val engtweets = tweets.filter(status => status.getLang() == "en").map(x => x.getText()) import

1熱度

1回答

處理R中大數據的有效方法

我有一個巨大的csv文件，1.37 GB，並且在R中運行glm時，它崩潰，因爲我沒有分配足夠的內存。你知道，經常出現的錯誤.. 是否有沒有其他的軟件包ff和bigmemory的替代品，因爲他們似乎不適合我，因爲我的列是一個整數和字符的混合，而且似乎與兩個包我必須指定我的列是什麼類型，無論是字符或整數。我們即將在2018年即將把人們放在火星上;有沒有簡單的「read.csv.xxl」函數我們可以使

1熱度

1回答

成羣Spark2數據幀/ RDD過程

我有以下的表存儲在蜂巢稱爲ExampleData： +--------+-----+---| |Site_ID |Time |Age| +--------+-----+---| |1 |10:00| 20| |1 |11:00| 21| |2 |10:00| 24| |2 |11:00| 24| |2 |12:00| 20| |3 |11:00| 24| +-----

0熱度

2回答

java.lang.ArrayIndexOutOfBoundsException：在MapReduce的2錯誤，Hadoop的

我試圖解決使用Hadoop這個問題。查找使用平均收視率前十位的企業評級。評分最高的商家將排在第一位。回想一下，review.csv文件中的第4列代表評級。我的Java代碼： package bd; import java.io.IOException; import java.util.ArrayList; import java.util.Collections; import ja

2熱度

1回答

點燃阿帕奇使用VS蒙戈DB使用 - 主要區別

點燃VS蒙戈DB 是什麼點燃Apache和蒙戈DB之間的主要區別？是mongo db一個數據庫，我們保存在磁盤中並點燃一個內存，我們保存在Ram中？你可以一起使用它們嗎？如果是的話，你將如何結合他們？

0熱度

1回答

如何在SOLR響應中創建自定義字段？

我想比較兩個字段（比如lastnames），當我查詢時，結果應該隨其他字段填充。所以我可以選擇在solr中創建這樣的自定義字段，它可以比較字段並在查詢時提供結果？

-4熱度

1回答

Python如何處理大數字？

我一直在使用C++，並且一直在面對大數目的問題。我已經用「尋找數百分之一」的數組解決了它，但是我想知道處理大數字的python的方法。謝謝。

0熱度

3回答

Hive或HBase的報告？

我想了解用於報告目的的最佳大數據解決方案是什麼？目前我把它縮小到HBase vs Hive。用例是我們有幾百TB的數據，有數百個不同的文件。數據是實時的，並且一直在更新。我們需要提供最有效的報告方式。我們有幾十個不同的報告頁面，每個報告由不同類型的數字和圖形數據組成。例如：顯示所有在過去一小時內登錄系統的用戶，並且其來源是美國。以最多玩過的遊戲來展示一個圖表，以最少玩過的遊戲。系統中

0熱度

1回答

JSON解析SERDE陣列結構問題

我的JSON對象： { "_total": 4, "values": [ { "total-follower-count": 63911, "organic-follower-count": 6000, "paid-follower-count": 3911, "time": 1399334400000

0熱度

1回答

兩個大文本文件的高效文件比較

在我們的使用案例中，我們從我們的客戶（大小約30GB）獲得大量快照文本文件（tsv，csv等）以及數百萬條記錄。數據是這樣的： ItemId (unique), Title, Description, Price etc. shoe-id1, "title1", "desc1", 10 book-id-2, "title2", "desc2", 5 無論何時，我們從客戶得到的快照，我們需要