bigdata

1熱度

1回答

是否有任何簡單的R函數從文本文件（* .txt或尤其是*）讀取特定行。 csv）沒有讀取整個文件到內存中？我想讀取文件的唯一選擇線路，例如讀取只有x1==b線： x1 x2 x3 a 1 1 a 2 2 b 2 3 b 1 4 a 2 1 -> x1 x2 x3 b 2 3 b 1 4 也許一些Perl的工具，R，但它很容易（對R用戶）？

13熱度

1回答

Postgresql - 在大數據庫中使用數組的性能

假設我們有一個包含600萬條記錄的表。有16個整數列和幾個文本列。它是隻讀表，因此每個整數列都有一個索引。每個記錄大約50-60個字節。表名是「Item」服務器是：12 GB RAM，1,5 TB SATA，4個CORES。所有服務器的postgres。此數據庫中有更多的表，因此RAM不覆蓋所有數據庫。我想在表格「Item」中添加一列「a_elements」（大整數的數組類型）每一條記

1熱度

1回答

在HDF5

StackOverflow上的神諭你好存儲分層數據較爲理想的方法，第一次我設法問堆棧溢出的問題，可以隨意在我扔你的菜呢。（或糾正我應該問我的問題的方式）我有這個問題。我使用HDF5來存儲海量的cookie信息。我的數據是通過以下方式構成： Cookie編號 - >事件 - > Key_value對有每個Cookie編號多個事件。但每個事件只有一個key_value對。我想知道什麼是我應

0熱度

3回答

在hadoop中生成mkdir命令的日誌

是否有任何方法可以生成一個hadoop fs -mkdir命令的成功/失敗日誌。可能適用於所有hadoop shell命令集。

3熱度

3回答

Hadoop對遞歸數據處理的適用性

我有一個需要遞歸應用的過濾算法，我不確定MapReduce是否適合這項工作。 W/o給予太多，我可以說，每個被過濾的對象的特點是一個集合，如果有序列表或隊列。的數據是不是很大，只是250MB，當我從出口到SQL CSV 。映射步驟很簡單：列表頭部包含一個對象，該對象可以將該列表歸類爲屬於映射節點中的一個。每個節點上的過濾算法在分配給該節點的列表集合上工作，並且在過濾結束時，或者列表保持與過濾之

3熱度

2回答

的R - 大數據 - 向量超過向量長度的限制

我有下列R-代碼： data <- read.csv('testfile.data', header = T) mat = as.matrix(data) 我testfile.data的一些更多的統計數據： > ncol(data) [1] 75713 > nrow(data) [1] 44771 由於這是一個大的數據集，所以我使用的是具有64GB RAM空間的Amazon EC2

0熱度

1回答

使用Hadoop及相關項目分析不斷變化的使用模式

我們正在制定策略，分析用戶對我們網站上1M +項目的「興趣」（點擊次數，喜歡等）以生成「類似項目」列表。爲了處理大量的原始數據，我們正在學習Hadoop，Hive和相關項目。我的問題是關於這個問題：Hadoop/Hive等似乎更適合數據轉儲，接下來是處理週期。據推測，處理週期的結束是相關項之間鏈接的索引圖的擴展。如果我到目前爲止的軌道上，通常在這些情況下如何處理數據：即，原始用戶數據是否按

1熱度

1回答

如何使報告生成更快？（數據從sql數據庫中提取出來）

我的團隊使用SQL數據庫生成「每日活躍用戶」報告我們搜索的表的大小爲約700萬條記錄，我們嘗試我們最好的來優化我們的算法，並把索引放在SQL db，，但仍然得到120秒爲每個每日生成報告。有什麼辦法讓它更快？任何領域/關鍵字/書籍/論壇，任何人都可以推薦我可以搜索？詳細信息查詢定義：對於誰已經登錄，連續7天，我們計爲「活躍用戶」在7天最終的用戶表：login_in 對於登錄記

1熱度

3回答

在500K記錄查找相似的對象

編輯解決方案這是解決方案，這要歸功於@mprivat： from mysql_wrapper2 import Mysql import Levenshtein import time db = Mysql() fields = [...] records = db.query('SELECT *, CONCAT(%s) as `string`, SOUNDEX(CONCAT(%s)

5熱度

1回答

準備設計和建築的最佳方式與大數據相關的問題

最近，我參加了一家公司的現場面試，我被問到與大數據有關的設計問題，例如：讓我訪問一個網站的用戶列表（說谷歌）之間的時間t1和t2。使用什麼數據結構，如何處理併發，陳舊的數據，需要多少服務器來存儲數據，以及每個服務器的需求（軟件，硬件等）...... 請給我點書/ Web引用，以增加我的知識在新area.Also提供我如何回答