bigdata

    0熱度

    1回答

    我有一個擁有1億行用戶在線活動的大型數據集。每行包含一個時間戳,用戶標識和站點域名。我想將數據集轉換爲唯一的域和用戶標識的矩陣,以便執行一些矩陣操作。唯一域名的數量約爲100K,唯一用戶數量約爲1000萬。矩陣非常稀疏。 什麼是最好的軟件包或使用的技術?我意識到我的問題非常廣泛。我正在使用python和Google雲端平臺,所以我希望解決方案將在這些線上。

    0熱度

    1回答

    在druid.io工作期間,我發現位於/druid_dir/var/sv/的日誌文件需要千兆字節的空間。 要解決這個問題,我想設置日誌級別ERROR 我把common.runtime.properties druid.emitter.logging.logLevel=error 和log4j2.xml: Configuration status="ERROR" 但是.log文件仍然會變大(

    0熱度

    1回答

    我已經寫了下面的Scala代碼來創建拼花文件 scala> case class Person(name:String,age:Int,sex:String) defined class Person scala> val data = Seq(Person("jack",25,"m"),Person("john",26,"m"),Person("anu",27,"f")) data: S

    0熱度

    2回答

    我在我的.bashrc文件中爲Hcatalog添加了導出語句,最終導致了我的.basrc文件混亂。現在,即使我在我的cmd中打開了bashrc文件並刪除了這兩個導出語句,但我仍然無法運行任何命令。 我目前的.bashrc文件: > # ~/.bashrc: executed by bash(1) for non-login shells. > # see /usr/share/doc/bas

    1熱度

    1回答

    爲每個用戶創建一個包含多種UUID類型的事件表,我們希望能夠將所有這些UUID拼接在一起,以獲得單個用戶的最高可能定義。 例如: UUID1 | UUID2 1 a 1 a 2 a 2 b 3 c 4 c 有2個用戶在這裏,第一個與UUID1 = {1,2}和UUID2 = {A,B},第二個與UUID1 = {3,4-

    1熱度

    1回答

    說我的一個Keen IO事件屬性是布爾值對象:{「is_a」:true,「is_b」:true,「is_c」:false,...}。 我該如何計算每個布爾值設置爲true有多少個事件? 即我想要得到的結果,告訴我,在上週出現了:與在is_b是真的 70比賽時,is_a真正 60事件 100事件is_c是真的 有沒有辦法做到這一點,而不需要爲每個is_a/b/c單獨調用?

    2熱度

    1回答

    說我的情況是這樣的: purchase = { items: ["pickle", "turtle", "lexicon"] } 如何計算有多少事件有「泡菜」?

    0熱度

    1回答

    我正在處理一個產生大量規則的巨大數據集。我只需要高升力低支持規則,但我越來越超過1500萬(這是設置min/maxlen和清理我的源數據後) 我現在要做的是創建一個頭幾百萬,並從所有規則中減去。我的希望是,最終剩下的只是桶的底部。 代碼: basket_rules2 <- apriori(ttk, parameter = list(sup = 0.03, conf = 0.25, target="

    0熱度

    1回答

    例如,如果複製因子是3,並且羣集中有2個節點。那麼將會創建多少個副本?他們將如何放置?

    2熱度

    2回答

    我對每一行都有多個ID,我想提取每行中某些文本之後的數字。以下可能是我在id列中的值。 test123; tghy876; 8906; TT-1234 best123; tghy8656; 88706; TT-5678 我希望輸出只返回tt-之後的數字,所以我的輸出應該如下。 什麼蜂房代碼應該被用來實現這一目標?