apache-spark

    2熱度

    1回答

    我的集羣是Spark-0.7.2 + Mesos-0.9。我在python中編寫了一個spark程序,它在本地模式下運行良好。但是當我在mesos上運行時發生了一些錯誤。這裏是錯誤信息: 13/09/30 15:40:13 INFO TaskSetManager: Finished TID 13 in 242 ms (progress: 2/3) 13/09/30 15:40:13 INFO D

    0熱度

    3回答

    我想訂閱Spark到ActiveMQ或Mosquitto MQTT經紀人。我怎樣才能做到這一點?

    6熱度

    1回答

    我有一系列離散事件進入我的系統,我需要根據每個事件的內容應用規則。另外,我想對這些流事件應用複雜的事件處理。 限制條件 1.這些規則是用戶提供的,並且會動態改變。 2.我不想在應用規則時重新啓動我的系統。 醫管局3. 4. 唯一成熟的開源解決方案 可能途徑.. 1.運行艾斯波CEP風暴之錘內 2.有風暴之錘內運行的Drools 這會做單事件規則處理以及複雜事件?規則的變化是否會要求我的風暴重啓?

    2熱度

    2回答

    我想用python或scala來連接鯊魚服務器。但我沒有找到任何工具來做到這一點。 是否有任何庫(python或scala/java)。 感謝先進。

    0熱度

    2回答

    我正在運行用Scala 2.9.3編寫的Spark應用程序。以下是創建節點樹的功能network。每個節點都有一組唯一的鄰居,它們是該特定節點的子節點。我面臨的問題是在for循環內對象current是不同的對象(通過其不同的地址顯而易見)。我怎樣才能防止這種情況,並且在外部宣佈的同一個對象上執行for循環? def network (root: Node) : Tree = {

    3熱度

    1回答

    我想在Scala中計算非常大的JSON文件(每個大約400 MB)。 我的用例是批處理。我可以在同一時刻收到幾個非常大的文件(高達20 GB,然後剪切以進行處理),我真的很想將它們作爲一個隊列快速處理(但它不是本文的主題!)。所以它確實是關於分佈式架構和性能問題。 我的JSON文件格式是一個對象數組,每個JSON對象至少包含20個字段。我的流程由兩個主要步驟組成。第一個是將JSON對象映射到Sca

    3熱度

    1回答

    我正計劃對機器學習算法實現的火花進行評估。通常我實現的算法被表示爲矩陣運算。 我就2個但─ 問題應算法來使用Scala的火花在實現時表示爲矩陣運算? 如果是這樣,斯卡拉/星火具有良好的矩陣庫 通過矩陣庫我的意思是......什麼的C同行,BLAS,作爲強大的犰狳等 謝謝! Ajay

    5熱度

    1回答

    我正在嘗試編寫一個簡單的流處理Spark作業,它將獲取每個屬於用戶的消息列表(JSON格式),統計每個用戶的消息並打印前十個用戶。 但是,當我定義比較器>對減少的計數進行排序時,整個事件都會失敗,並拋出java.io.NotSerializableException。 我對星火Maven的依賴: <groupId>org.apache.spark</groupId> <artifactId>sp

    3熱度

    1回答

    我正嘗試使用Spark從Amazon S3讀取數據。 但我越來越 java.lang.NoClassDefFoundError: org/jets3t/service/S3ServiceException 從一個Hadoop調用。 我試過dwnloading jets3t並將所有包含的jar添加到我的類路徑 但它沒有幫助。 這裏是正在發生的事情的完整記錄: scala> val zz = sc

    6熱度

    1回答

    我對scala中的部署很陌生,我配置了sbt-assembly插件,運行良好。前幾天我加了hadoop,spark和一些其他的依賴關係,然後assembly任務變得非常慢(8到10分鐘),在此之前,它是< 30秒。 大部分時間用於生成組裝jar(jar需要幾秒鐘的時間才能增加1MB大小)。 我觀察到有很多合併衝突,這些衝突由first策略解決。這會影響組裝的速度嗎? 我已經玩過sbt的-Xmx選項