bigdata

0熱度

1回答

我有一個擁有1億行用戶在線活動的大型數據集。每行包含一個時間戳，用戶標識和站點域名。我想將數據集轉換爲唯一的域和用戶標識的矩陣，以便執行一些矩陣操作。唯一域名的數量約爲100K，唯一用戶數量約爲1000萬。矩陣非常稀疏。什麼是最好的軟件包或使用的技術？我意識到我的問題非常廣泛。我正在使用python和Google雲端平臺，所以我希望解決方案將在這些線上。

0熱度

1回答

Druid.io（暗示）：日誌級別設置

在druid.io工作期間，我發現位於/druid_dir/var/sv/的日誌文件需要千兆字節的空間。要解決這個問題，我想設置日誌級別ERROR 我把common.runtime.properties druid.emitter.logging.logLevel=error 和log4j2.xml： Configuration status="ERROR" 但是.log文件仍然會變大（

0熱度

1回答

無法從拼花文件加載數據蜂巢外部表

我已經寫了下面的Scala代碼來創建拼花文件 scala> case class Person(name:String,age:Int,sex:String) defined class Person scala> val data = Seq(Person("jack",25,"m"),Person("john",26,"m"),Person("anu",27,"f")) data: S

0熱度

2回答

在ubuntu編輯bashrc文件後命令不工作

我在我的.bashrc文件中爲Hcatalog添加了導出語句，最終導致了我的.basrc文件混亂。現在，即使我在我的cmd中打開了bashrc文件並刪除了這兩個導出語句，但我仍然無法運行任何命令。我目前的.bashrc文件： > # ~/.bashrc: executed by bash(1) for non-login shells. > # see /usr/share/doc/bas

1熱度

1回答

在紅移中查找具有多個UUID標識符的唯一實體

爲每個用戶創建一個包含多種UUID類型的事件表，我們希望能夠將所有這些UUID拼接在一起，以獲得單個用戶的最高可能定義。例如： UUID1 | UUID2 1 a 1 a 2 a 2 b 3 c 4 c 有2個用戶在這裏，第一個與UUID1 = {1,2}和UUID2 = {A，B}，第二個與UUID1 = {3,4-

1熱度

1回答

如何使用Keen IO中的多個布爾變量來計數事件？

說我的一個Keen IO事件屬性是布爾值對象：{「is_a」：true，「is_b」：true，「is_c」：false，...}。我該如何計算每個布爾值設置爲true有多少個事件？即我想要得到的結果，告訴我，在上週出現了：與在is_b是真的 70比賽時，is_a真正 60事件 100事件is_c是真的有沒有辦法做到這一點，而不需要爲每個is_a/b/c單獨調用？

2熱度

1回答

我如何計算在Keen IO中有多少事件存在某個列表項目？

說我的情況是這樣的： purchase = { items: ["pickle", "turtle", "lexicon"] } 如何計算有多少事件有「泡菜」？

0熱度

1回答

在Arules中，返回來自很多規則的最小支持項目

我正在處理一個產生大量規則的巨大數據集。我只需要高升力低支持規則，但我越來越超過1500萬（這是設置min/maxlen和清理我的源數據後）我現在要做的是創建一個頭幾百萬，並從所有規則中減去。我的希望是，最終剩下的只是桶的底部。代碼： basket_rules2 <- apriori(ttk, parameter = list(sup = 0.03, conf = 0.25, target="

0熱度

1回答

在Hadoop中，複製因子與羣集中節點數量之間的關係是什麼？

例如，如果複製因子是3，並且羣集中有2個節點。那麼將會創建多少個副本？他們將如何放置？

2熱度

2回答

在配置單元中的字符串中的某些字符後提取文本

我對每一行都有多個ID，我想提取每行中某些文本之後的數字。以下可能是我在id列中的值。 test123; tghy876; 8906; TT-1234 best123; tghy8656; 88706; TT-5678 我希望輸出只返回tt-之後的數字，所以我的輸出應該如下。什麼蜂房代碼應該被用來實現這一目標？