data-cleansing

    4熱度

    4回答

    我目前正在做一個數據建模項目,作爲我暑期大學項目的一部分。客戶端數據需要大量清理,因爲許多列依賴於人員輸入並具有自由文本。 舉一個例子,列Business Name對同一個公司有多個條目。對於「Hugo Boss」這包括「Hugo Bos」,「Huggo Boss」,「Hugo Boss Ltd」。 我可能會經歷每一行,並確定所有已使用的值併爲每個條目創建一張地圖,但考慮到我正在處理100萬條記錄

    -2熱度

    1回答

    我在清洗Stata中的報價數據時出現問題(請參閱下文)。我有多個帶有相同時間戳的報價,我需要用這些多個報價的中間出價和中位出價來替換所有這些報價。 在Stata中可以這樣做嗎? utcsec是以秒爲單位的時間戳(34240(秒)= 09:30:40(HH:MM:SS))。

    0熱度

    1回答

    我設法用;替換了我想要的東西,但是現在我努力去除空白和換行符,直到獲得所有數據,直到;在一行上,然後開始下一行。 代碼: replacements = {'Geboren am':';', 'Nato/a il':';', 'Né(e) le':';'} with open('DATEN2.txt') as infile, open('DATENBEARBEITET2.txt', 'w') a

    1熱度

    1回答

    我想使用庫('RecordLinkage')和compare.dedup()函數來替換單個列中的重複值。 此post類似,我有一個矢量 tv3 = c("TOURDEFRANCE", 'TOURDEFRANCE', "TOURDE FRANCE", "TOURDE FRANZ", "GET FRESH") ,我想輸出是以下,基於重量的一組值(例如> 0.8): ("TOURDEFRANCE",

    1熱度

    1回答

    需要幫助!這是一個與工作有關的項目。我需要清理16,000封電子郵件......預計需要手工完成:(我需要找到一個離開的名稱,將其從電子郵件中拉出並放入一個新列中,並將該名稱解析爲一個新列,同時仍然保持原有的電子郵件,該數據是部分完成。 library(tidyr) library(magrittr) Email.Address <- c('[email protected]','[emai

    2熱度

    1回答

    當數據表現良好時,識別unique值是直截了當的。在這裏,我正在尋找一種方法來從字符向量中獲取大約唯一的值的列表。 讓x是一個實體名稱略有不同的向量,例如, Kentucky loader可能顯示爲Kentucky load或Kentucky loader (additional info)或有點類似。 x <- c("Kentucky load" ,

    -5熱度

    1回答

    我使用在線文件格式轉換器將包含巨大價目表的幾個文件從* .pdf轉換爲* .xls格式。然而,轉換沒有給出預期的結果,並且需要在文件上進行更多的清理工作。已經嘗試了各種不同的方法使用宏記錄器和粘性溢出失敗。 我需要一個宏來對我的數據執行以下清理工作。 循環選定數據中的行並搜索缺少一個或多個單元格中的條目的不完整行。 將這些不完整行中的文本與其上面第一個完整行中同一列中的單元格連接起來。 示例; 如

    -2熱度

    2回答

    簡介 給出一個包含與模式前綴Yea​​r.csv命名的CSV文件的目錄,創建一組新的CSV文件,命名爲前綴aggregate.csv每個集成文件是組合所有具有相同前綴的CSV文件。 說明 我有一個包含5,500這種模式命名CSV文件的目錄:前綴Yea​​r.csv。例如: 18394-1999.csv . . . //consecutive years 18394-2014.csv

    2熱度

    1回答

    我有一些perfmon(Windows性能日誌數據)數據我希望解析。 通常一組列名如下所示: > colnames(p) [1] "Time" [2] "\\\\testdb1\\PhysicalDisk(0 C:)\\Avg. Disk Queue Length" [3] "\\\\testdb1\\PhysicalDisk(0 C:)\\Avg. Disk

    0熱度

    1回答

    我有一個csv文件,我只想提取句子的時間戳,其中包含加上該句子中的水果名稱。我怎樣才能做到這一點R(或是否有這樣做的一個更快的方法,那是什麼?) rosbagTimestamp,data 1438293900729698553,robot is in motion toward [strawberry] 1438293900730571638,Found a plan for avocado