spark-streaming

    -1熱度

    1回答

    我是新的火花流,我不明白地圖如何工作。我想從一個流排隊一些問題後,我從一個構造函數,因此我寫它傳遞的是: val data = inp.flatMap(_.split(",")) val points = data.map(_.toDouble) val queue: Queue[Point] = new Queue[Point] points.foreachRDD(rdd => { rd

    0熱度

    1回答

    我正在使用Dstream(Spark Streaming)的Transform API對數據進行排序。 我正在使用netcat從TCP套接字讀取數據。 繼使用的代碼行: myDStream.transform(rdd => rdd.sortByKey()) 無法找到函數sortByKey。任何人都可以請幫助這一步中的問題是什麼?

    1熱度

    1回答

    我是新來的火花。我使用結構化流式傳輸從kafka讀取數據。 我可以在Scala中使用此代碼讀取數據: val data = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", brokers) .option("subscribe", topics) .option

    1熱度

    1回答

    我試圖計算位數計算位數高效的算法(可近似具有一定精確度保證或錯誤邊界)一個巨大的數據集(萬億字節的數據)。我如何有效地計算分位數。要求是 1) Can be computed efficiently (one-pass) or in a distributed way (merging) 2) High accuracy (or at least can be controlled) 3) C

    0熱度

    2回答

    OS:紅帽企業Linux服務器版本6.5 JRE:甲骨文1.8.0.144-B01 火花streaming_2.11:2.1.0 火花流,卡夫卡-0-10_2.11:2.1.0 Spark spark Kafka jar由spark-submit提交給standalone spark集羣,並且運行良好幾天。但是最近,我們發現沒有爲這個流生成新的工作,我們嘗試重新啓動作業,然後重新啓動集羣,流只停留

    0熱度

    1回答

    我正在使用火花消費者(從spa‌​rk-streaming-kafka_2‌​.10版本1.6.0)。 我的火花發射器從kafka隊列偵聽5分區的消息。假設我停止了我的火花應用程序,然後根據我的配置讀取最小或最大的偏移值。但是我的Saprk應用程序應該在我停止之後讀取meesage。例如,我停止過程3.00PM,並在3.30PM啓動火花發射器。然後,我想閱讀下午3點至下午3點30分之間的所有消息。

    0熱度

    1回答

    Spark和Scala的新手。試圖達到以下。我的消息看起來像以下(鑰匙,ID,版本,dataObject時) val transformedRDD = processedMessages.flatMap(message => { message.isProcessed match { case true => Some(message.key, message.id, mes

    0熱度

    1回答

    我試圖實現包含容錯的Kafka應用程序的Spark Streaming。當我重新啓動應用程序時,它會讀取重新啓動前已讀取的消息,並且我的計算出錯了。請幫我解決這個問題。 這是用Java編寫的代碼。 public static JavaStreamingContext createContextFunc() { SummaryOfTransactionsWithCheckpoints a

    0熱度

    1回答

    我正在使用Java Spark API,對於KafkaUtils.createDirectStream,我想跟蹤偏移量。 有一個名爲fromOffset的參數,它記錄了Kafka主題分區中的偏移量。對於第一次運行,我不知道將有多少個分區,那麼如何設置此參數? 並且我是否需要在Kafka參數中設置「auto.offset.reset」? 如果是,它會影響我的代碼從已知的偏移中恢復嗎?

    0熱度

    1回答

    優化在基於Yarn的羣集上部署的Spark Jobs的最佳方式是什麼? 。 尋找基於配置而非代碼級別的更改。我的問題是經典設計級別的問題,應該使用什麼方法來優化Spark Streaming或Spark SQL上開發的作業。