bigdata

    1熱度

    1回答

    是否有任何簡單的R函數從文本文件(* .txt或尤其是*)讀取特定行。 csv)沒有讀取整個文件到內存中?我想讀取文件的唯一選擇線路,例如讀取只有x1==b線: x1 x2 x3 a 1 1 a 2 2 b 2 3 b 1 4 a 2 1 -> x1 x2 x3 b 2 3 b 1 4 也許一些Perl的工具,R,但它很容易(對R用戶)?

    13熱度

    1回答

    假設我們有一個包含600萬條記錄的表。有16個整數列和幾個文本列。它是隻讀表,因此每個整數列都有一個索引。 每個記錄大約50-60個字節。 表名是「Item」 服務器是:12 GB RAM,1,5 TB SATA,4個CORES。所有服務器的postgres。 此數據庫中有更多的表,因此RAM不覆蓋所有數據庫。 我想在表格「Item」中添加一列「a_elements」(大整數的數組類型) 每一條記

    1熱度

    1回答

    StackOverflow上的神諭你好存儲分層數據較爲理想的方法, 第一次我設法問堆棧溢出的問題,可以隨意在我扔你的菜呢。 (或糾正我應該問我的問題的方式) 我有這個問題。我使用HDF5來存儲海量的cookie信息。 我的數據是通過以下方式構成: Cookie編號 - >事件 - > Key_value對 有每個Cookie編號多個事件。但每個事件只有一個key_value對。 我想知道什麼是我應

    0熱度

    3回答

    是否有任何方法可以生成一個hadoop fs -mkdir命令的成功/失敗日誌。可能適用於所有hadoop shell命令集。

    3熱度

    3回答

    我有一個需要遞歸應用的過濾算法,我不確定MapReduce是否適合這項工作。 W/o給予太多,我可以說,每個被過濾的對象的特點是一個集合,如果有序列表或隊列。 的數據是不是很大,只是250MB,當我從出口到SQL CSV 。 映射步驟很簡單:列表頭部包含一個對象,該對象可以將該列表歸類爲屬於映射節點中的一個。每個節點上的過濾算法在分配給該節點的列表集合上工作,並且在過濾結束時,或者列表保持與過濾之

    3熱度

    2回答

    我有下列R-代碼: data <- read.csv('testfile.data', header = T) mat = as.matrix(data) 我testfile.data的一些更多的統計數據: > ncol(data) [1] 75713 > nrow(data) [1] 44771 由於這是一個大的數據集,所以我使用的是具有64GB RAM空間的Amazon EC2

    0熱度

    1回答

    我們正在制定策略,分析用戶對我們網站上1M +項目的「興趣」(點擊次數,喜歡等)以生成「類似項目」列表。 爲了處理大量的原始數據,我們正在學習Hadoop,Hive和相關項目。 我的問題是關於這個問題:Hadoop/Hive等似乎更適合數據轉儲,接下來是處理週期。據推測,處理週期的結束是相關項之間鏈接的索引圖的擴展。 如果我到目前爲止的軌道上,通常在這些情況下如何處理數據:即, 原始用戶數據是否按

    1熱度

    1回答

    我的團隊使用SQL數據庫生成「每日活躍用戶」報告 我們搜索的表的大小爲約700萬條記錄,我們嘗試我們最好的 來優化我們的算法,並把索引放在SQL db,,但仍然得到120秒爲 每個每日生成報告。 有什麼辦法讓它更快? 任何領域/關鍵字/書籍/論壇,任何人都可以推薦我可以搜索? 詳細信息 查詢定義: 對於誰已經登錄,連續7天,我們計爲「活躍用戶」 在7天最終的用戶 表:login_in 對於登錄 記

    1熱度

    3回答

    編輯解決方案 這是解決方案,這要歸功於@mprivat: from mysql_wrapper2 import Mysql import Levenshtein import time db = Mysql() fields = [...] records = db.query('SELECT *, CONCAT(%s) as `string`, SOUNDEX(CONCAT(%s)

    5熱度

    1回答

    最近,我參加了一家公司的現場面試,我被問到與大數據有關的設計問題,例如:讓我訪問一個網站的用戶列表(說谷歌)之間的時間t1和t2。使用什麼數據結構,如何處理併發,陳舊的數據,需要多少服務器來存儲數據,以及每個服務器的需求(軟件,硬件等)...... 請給我點書/ Web引用,以增加我的知識在新area.Also提供我如何回答