data-cleansing

    -1熱度

    2回答

    我正在從大約18列的.csv文件導入的熊貓數據框中工作。每列都有一個項目名稱和一個圖像描述,以html格式作爲列標題。它是這樣的: A <img width="300" alt="A" height="300".jpg">` ` B <img width="400" alt="B" height="600".jpg"`...... 等等。 我想要實現的是隻獲取我的列標題的項目名稱並修剪圖像部分

    0熱度

    3回答

    個人清單: ['\n\r\n\tThis article is about sweet bananas. For the genus to which banana plants belong, see Musa (genus).\n\r\n\tFor starchier bananas used in cooking, see Cooking banana. For other uses, se

    1熱度

    1回答

    我對Pyspark還比較陌生。我使用版本2.1.0。 我正試圖清理更大的數據集上的一些數據。 我已經成功地使用了諸如「dropDuplicates」以及子集和sql函數(不同的,計數等)的幾種技術。 然後我碰到了dropna,我認爲這可能會簡化事宜。但我不明白爲什麼第3行和第6行在使用dropna後仍然存在。 例如: df = spark.createDataFrame([(1, 'Peter',

    1熱度

    2回答

    我正在嘗試使用gsub()來清理我的csv格式的文本數據集。現在我的數據的樣本行,如: "5.0\t/gp/customer-reviews/R3M62HO4M6LXE6?ASIN=0439023521\tEngaging. Brutal but engaging!\t\"Wow. I was barely able to put this book down for a second after

    0熱度

    1回答

    我一直在試圖替換特定列的數據集中的字符串。如果是1或0,則爲'Y',否則爲0. 我已經成功地確定了要使用lambda進行數據框到rdd轉換的目標列,但需要一段時間才能處理。 切換到每個列的rdd然後執行一個獨特的,這是需要一段時間! 如果在不同的結果集中存在'Y',則該列被標識爲需要轉換。 我想知道是否有人可以建議我如何可以專門使用pyspark sql函數來獲得相同的結果,而不必切換每列? 代碼

    0熱度

    1回答

    我有大約10個數據源我試圖在Access數據庫中彙總一組Tableau儀表板。這些文件都包含員工數據,問題是,Employee_Name在文件間不一致,並且只有一個文件具有唯一ID,因此我無法執行任何需要的連接。 當然,最好的解決方案是在所有文件中使用常見的Employee_ID來獲取源數據,但我不知道是否/何時可以得到該數據。 目前,該名稱格式如下 FISHER, BOBBY M FISHER

    -1熱度

    1回答

    卸妝數據考慮CSV數據的以下兩行: 01-15-2014 12:04:05, row1 2014/02/20, row2 第1行具有所需的時間戳格式MM-DD-YYYY HH:MM:SS。第2行時間戳需要轉換爲匹配。那麼我怎樣才能完成這項任務。

    0熱度

    1回答

    我有下面的數據,已將單行數據幀轉換爲RDD。 我正在使用PySpark 2.1.0。 [Row((1 - (count(YEAR_MTH)/count(1)))=0.0, (1 - (count(REPORTED_BY)/count(1)))=0.0, (1 - (count(FALLS_WITHIN)/count(1)))=0.0, (1 - (count(LOCATION)/count(

    0熱度

    1回答

    我們對TFS相當陌生,我一直在嘗試清理一些區域。我可以看到一個簡單的TFS查詢,其中有超過180個測試套件,名稱爲「New suite」...我不想嘗試打開每個測試套件,並查看是否有測試用例分配給它。 有沒有辦法獲得空測試套件報告,也許有空測試計劃? 感謝 帕特

    0熱度

    1回答

    我在編程(Python)方面仍然是一個新手,並且更新一個約40,000個聯繫人列表的任務時有點不知所措。顯然,我不想這樣做手動,並試圖找出如何最好地自動化任務。任何意見或幫助指向正確的方向將不勝感激。這裏有問題: 我需要確保該信息仍然是最新的(即該人仍然工作在同一家公司和/或沒有改變他的職位)。什麼是最好的方法來做到這一點?解析LinkedIn?試圖找到他們的Facebook個人資料,並希望他們透