apache-spark

2熱度

1回答

我的集羣是Spark-0.7.2 + Mesos-0.9。我在python中編寫了一個spark程序，它在本地模式下運行良好。但是當我在mesos上運行時發生了一些錯誤。這裏是錯誤信息： 13/09/30 15:40:13 INFO TaskSetManager: Finished TID 13 in 242 ms (progress: 2/3) 13/09/30 15:40:13 INFO D

0熱度

3回答

Spark訂閱ActiveMQ或Mosquitto MQTT經紀人

我想訂閱Spark到ActiveMQ或Mosquitto MQTT經紀人。我怎樣才能做到這一點？

6熱度

1回答

流程複雜事件

我有一系列離散事件進入我的系統，我需要根據每個事件的內容應用規則。另外，我想對這些流事件應用複雜的事件處理。限制條件 1.這些規則是用戶提供的，並且會動態改變。 2.我不想在應用規則時重新啓動我的系統。醫管局3. 4. 唯一成熟的開源解決方案可能途徑.. 1.運行艾斯波CEP風暴之錘內 2.有風暴之錘內運行的Drools 這會做單事件規則處理以及複雜事件？規則的變化是否會要求我的風暴重啓？

2熱度

2回答

是否有任何python或scala工具來連接火花/鯊魚

我想用python或scala來連接鯊魚服務器。但我沒有找到任何工具來做到這一點。是否有任何庫（python或scala/java）。感謝先進。

0熱度

2回答

Scala：對象範圍

我正在運行用Scala 2.9.3編寫的Spark應用程序。以下是創建節點樹的功能network。每個節點都有一組唯一的鄰居，它們是該特定節點的子節點。我面臨的問題是在for循環內對象current是不同的對象（通過其不同的地址顯而易見）。我怎樣才能防止這種情況，並且在外部宣佈的同一個對象上執行for循環？ def network (root: Node) : Tree = {

3熱度

1回答

Scala中的JSON庫和計算分配

我想在Scala中計算非常大的JSON文件（每個大約400 MB）。我的用例是批處理。我可以在同一時刻收到幾個非常大的文件（高達20 GB，然後剪切以進行處理），我真的很想將它們作爲一個隊列快速處理（但它不是本文的主題！）。所以它確實是關於分佈式架構和性能問題。我的JSON文件格式是一個對象數組，每個JSON對象至少包含20個字段。我的流程由兩個主要步驟組成。第一個是將JSON對象映射到Sca

3熱度

1回答

Scala火花矩陣操作

我正計劃對機器學習算法實現的火花進行評估。通常我實現的算法被表示爲矩陣運算。我就2個但─ 問題應算法來使用Scala的火花在實現時表示爲矩陣運算？如果是這樣，斯卡拉/星火具有良好的矩陣庫通過矩陣庫我的意思是......什麼的C同行，BLAS，作爲強大的犰狳等謝謝！ Ajay

5熱度

1回答

在Spark中排序時發生NotSerializableException

我正在嘗試編寫一個簡單的流處理Spark作業，它將獲取每個屬於用戶的消息列表（JSON格式），統計每個用戶的消息並打印前十個用戶。但是，當我定義比較器>對減少的計數進行排序時，整個事件都會失敗，並拋出java.io.NotSerializableException。我對星火Maven的依賴： <groupId>org.apache.spark</groupId> <artifactId>sp

3熱度

1回答

使用Spark/Hadoop從S3讀取時發生錯誤

我正嘗試使用Spark從Amazon S3讀取數據。但我越來越 java.lang.NoClassDefFoundError: org/jets3t/service/S3ServiceException 從一個Hadoop調用。我試過dwnloading jets3t並將所有包含的jar添加到我的類路徑但它沒有幫助。這裏是正在發生的事情的完整記錄： scala> val zz = sc

6熱度

1回答

sbt程序集任務在添加一些依賴項後運行緩慢

我對scala中的部署很陌生，我配置了sbt-assembly插件，運行良好。前幾天我加了hadoop，spark和一些其他的依賴關係，然後assembly任務變得非常慢（8到10分鐘），在此之前，它是< 30秒。大部分時間用於生成組裝jar（jar需要幾秒鐘的時間才能增加1MB大小）。我觀察到有很多合併衝突，這些衝突由first策略解決。這會影響組裝的速度嗎？我已經玩過sbt的-Xmx選項