spark-dataframe

    0熱度

    1回答

    有沒有辦法採用以下兩個數據框並通過產生下面輸出的col0字段將它們連接起來? // dataframe1 val df1 = Seq( (1, 9, 100.1, 10), ).toDF("pk", "col0", "col1", "col2") // dataframe2 val df2 = Seq( (1, 9 "a1", "b1"), (2, 9 "a2",

    1熱度

    1回答

    我有一個數據幀(input_dataframe),它看起來像如下: id test_column 1 0.25 2 1.1 3 12 4 test 5 1.3334 6 .11 我想增加一列結果,裏面放值如果test_column具有十進制值和如果test_column具有任何其他值。數據類型test_column是字符串。以下是預期輸出: id tes

    0熱度

    1回答

    我調查一個Spark SQL作業(火花1.6.0),其表現不佳的原因橫跨200個分區嚴重偏斜數據偏斜,大部分數據是1個分區: 什麼我想知道...是否有Spark界面中的任何內容幫助我瞭解有關數據如何分區的更多信息?從看這個我不知道哪些列的數據框分區。我怎麼能找到這個? (除了查看代碼 - 我想知道日誌和/或UI中是否有任何內容可以幫助我)? 其他細節,這是使用Spark的數據幀API,Spark版

    0熱度

    1回答

    這是怎麼我在火花數據幀使用UDF .. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ SparkConf, SparkContext } import java.sql.{Date, Ti

    0熱度

    1回答

    。 讀取的輸入序列文件 sqlcontext.read.json()來轉換成數據幀從數據幀和緩存以上 選擇子集的數據。 我面臨的問題是,當火花到達第2步時,它似乎觸發了操作,因此讀取輸入數據並創建數據幀。 但是當我到達第3步,因爲它實現了一個緩存觸發動作來實現DF,它再次讀取輸入數據,因此浪費了兩次讀輸入數據的時間。 我不想緩存輸入數據。 如何避免兩次讀取輸入數據?

    0熱度

    2回答

    請在下面找到代碼並讓我知道如何將列名更改爲小寫。我嘗試過使用ColumnRename,但是我必須爲每列執行並輸入所有列名稱。我只是想在列上做,所以我不想提及所有列名稱,因爲它們有太多。 斯卡拉版本:2.11 星火:2.2 import org.apache.spark.sql.SparkSession import org.apache.log4j.{Level, Logger} import

    0熱度

    1回答

    我使用Spark 2.1和Cassandra(3.9)作爲數據源。 C *有一個有50列的大表,對我的用例來說這不是一個好的數據模型。所以我爲每個傳感器創建了拆分表以及分區鍵和集羣鍵列。 All sensor table ----------------------------------------------------- | Device | Time | Sensor1 | Sens

    -1熱度

    1回答

    我有兩個數據集, 數據集1如下 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^|

    1熱度

    2回答

    我需要實施星火下面的SQL邏輯DataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1; 我輸入DataFrame是如下: val dataset1 = S

    0熱度

    1回答

    正確的十進制數我有一個數據幀(input_dataframe),它看起來像如下: id test_column 1 0.25 2 1.1 3 12 4 test 5 1.3334 6 12.0 我想增加一列結果,把值如果test_column有一個十進制值,如果test_column具有任何其他值,則爲0。 test_column的數據類型是字符串。下面是