dataframe

    1熱度

    1回答

    我已經遇到一個奇怪的性能問題與R. 我有一個csv file包含接近600,00線和11列。最後一列包含日期。我正在嘗試根據最後一列中的日期是週末還是週日來篩選行。正如你從下面的輸出中可以看到的,這個相對簡單的過濾需要12秒。 > library(lubridate) > data335 = read.csv("data335.csv") > Sys.time() [1] "2017-10-

    1熱度

    2回答

    這裏是我的代碼: pizzarequests = pd.Series(open('pizza_requests.txt').read().splitlines()) line = "unix_timestamp_of_request_utc" lines = pizzarequests[pizzarequests.str.contains(line)].str.split(",").str[1

    -4熱度

    1回答

    你好,我有原始數據,比如1我想添加一個以80爲中斷點的列作爲合格等級,結果應該是2。我正在使用sqlContext.read.format(「com.databricks.spark.csv」)來讀取原始數據。任何幫助!

    1熱度

    1回答

    我想知道每個品牌的設備數量。其實,堆棧()。 Value_counts()方法是正確的,但它也計算它不應該計算的列。它以某種方式期待這兩列並返回它們。 import pandas as pd from sqlalchemy import create_engine # database connection disk_engine = create_engine('sqlite://gend

    0熱度

    2回答

    我是Scala/spark的新手。我正在研究Scala/Spark應用程序,該應用程序從配置單元表中選擇幾列,然後將其轉換爲可變映射,其中第一列是鍵,第二列是值。例如: +--------+--+ | c1 |c2| +--------+--+ |Newyork |1 | | LA |0 | |Chicago |1 | +--------+--+ 將被轉換爲Scala.mutab

    1熱度

    3回答

    我想根據xy數據幀的列中值的遞增順序對xy1數據幀的列中的值進行排序。 x <- c(3,1,7,45,22,2) y <- c(23,65,1,23,2,11) xy <- data.frame(x,y) x1 <- c(0.34,0.3,0.7,0.22,0.67,0.87) y1 <- c(0.4,0.13,0.17,0.72,0.61,0.7) xy1 <- data.fram

    0熱度

    2回答

    如何計算df列中使用Spark分區的字符串出現次數id? 例如在列查找值"test"的df 在SQL "name"是: def getCount(df: DataFrame): DataFrame = { val dfCnt = df.agg( .withColumn("cnt_test", count(col("name")==lit('test')) )

    1熱度

    2回答

    我有一個數據框,我需要重塑,以方便它在一個viz應用程序中使用。這裏的數據幀的壓縮版本: Carrier <- c("Mesa", "United", "JetBlue", "ExpressJet", "SkyWest") Flight_Num <- c(7124, 7177, 334, 1223, 6380) Origin <- c("ORD", "EWR", "SFO", "BOS", "

    -1熱度

    1回答

    我在大熊貓數據幀以下列柱: ​​ 在「統計」列,每個統計以由空格隔開。我想爲每個統計信息創建新的列。問題是不是每行都有每種類型的屬性。例如。第2行沒有「trey」。我該如何完成這一壯舉? 我想這一點,但每個「後,剛添加了新列: nba_2017_revised4 = nba_2017_revised3.join(nba_2017_revised3['Stats'].str.split(' ', 7

    -1熱度

    1回答

    我已經想通了,如果我使用as.character(df[x,y])或as.<whatever>df[x,y]我能得到/強迫我需要什麼,從我的數據每天的時間框架 我似乎無法找到/弄清楚就是爲什麼。下面的細節。 當我訪問df[1,1](或任何在第1列),我得到 df[1,1] [1] a Levels: a b c 但是當我訪問1,3-它工作正常 > df[1,3] [1] 10 但後來