spark-streaming

-1熱度

1回答

我是新的火花流，我不明白地圖如何工作。我想從一個流排隊一些問題後，我從一個構造函數，因此我寫它傳遞的是： val data = inp.flatMap(_.split(",")) val points = data.map(_.toDouble) val queue: Queue[Point] = new Queue[Point] points.foreachRDD(rdd => { rd

0熱度

1回答

sortByKey不適用於Dstream

我正在使用Dstream（Spark Streaming）的Transform API對數據進行排序。我正在使用netcat從TCP套接字讀取數據。繼使用的代碼行： myDStream.transform（rdd => rdd.sortByKey（））無法找到函數sortByKey。任何人都可以請幫助這一步中的問題是什麼？

1熱度

1回答

Spark（2.2）：deserialise使用結構化流式處理來自卡夫卡的節儉記錄

我是新來的火花。我使用結構化流式傳輸從kafka讀取數據。我可以在Scala中使用此代碼讀取數據： val data = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", brokers) .option("subscribe", topics) .option

1熱度

1回答

在TB級數據集

我試圖計算位數計算位數高效的算法（可近似具有一定精確度保證或錯誤邊界）一個巨大的數據集（萬億字節的數據）。我如何有效地計算分位數。要求是 1) Can be computed efficiently (one-pass) or in a distributed way (merging) 2) High accuracy (or at least can be controlled) 3) C

0熱度

2回答

星火流掛卡夫卡在JavaStreamingContext.start，無火花工作創造

OS：紅帽企業Linux服務器版本6.5 JRE：甲骨文1.8.0.144-B01 火花streaming_2.11：2.1.0 火花流，卡夫卡-0-10_2.11：2.1.0 Spark spark Kafka jar由spark-submit提交給standalone spark集羣，並且運行良好幾天。但是最近，我們發現沒有爲這個流生成新的工作，我們嘗試重新啓動作業，然後重新啓動集羣，流只停留

0熱度

1回答

Apache Spark Time基於Kafka off set

我正在使用火花消費者（從spa‌rk-streaming-kafka_2‌.10版本1.6.0）。我的火花發射器從kafka隊列偵聽5分區的消息。假設我停止了我的火花應用程序，然後根據我的配置讀取最小或最大的偏移值。但是我的Saprk應用程序應該在我停止之後讀取meesage。例如，我停止過程3.00PM，並在3.30PM啓動火花發射器。然後，我想閱讀下午3點至下午3點30分之間的所有消息。

0熱度

1回答

星火羣組rdd由配對RDD上的鑰匙和羣組組成，並從每個羣組中挑選最新的

Spark和Scala的新手。試圖達到以下。我的消息看起來像以下（鑰匙，ID，版本，dataObject時） val transformedRDD = processedMessages.flatMap(message => { message.isProcessed match { case true => Some(message.key, message.id, mes

0熱度

1回答

Spark Streaming檢查點失敗後讀取

我試圖實現包含容錯的Kafka應用程序的Spark Streaming。當我重新啓動應用程序時，它會讀取重新啓動前已讀取的消息，並且我的計算出錯了。請幫我解決這個問題。這是用Java編寫的代碼。 public static JavaStreamingContext createContextFunc() { SummaryOfTransactionsWithCheckpoints a

0熱度

1回答

Spark Streaming Kafka初始偏移量

我正在使用Java Spark API，對於KafkaUtils.createDirectStream，我想跟蹤偏移量。有一個名爲fromOffset的參數，它記錄了Kafka主題分區中的偏移量。對於第一次運行，我不知道將有多少個分區，那麼如何設置此參數？並且我是否需要在Kafka參數中設置「auto.offset.reset」？如果是，它會影響我的代碼從已知的偏移中恢復嗎？

0熱度

1回答

|性能調整和優化

優化在基於Yarn的羣集上部署的Spark Jobs的最佳方式是什麼？。尋找基於配置而非代碼級別的更改。我的問題是經典設計級別的問題，應該使用什麼方法來優化Spark Streaming或Spark SQL上開發的作業。