通過CSV文件循環 - 爲每個單獨文件發出完成任務

我試圖通過多個CSV文件循環併爲每個文件完成相同的任務以節省自己的時間。首先，我運行'list.files'列出文件夾中的所有文件（例如，GPS_Collar33800_13.csv，GPS_Collar33801_13.CSV等）。然後，我開發了一個循環，但我正在努力構建代碼的其他部分來處理每個單獨的文件。我的最終目標是有24個文件在結構上看起來相同，然後我需要將它們合併到一個主文件中。另一個問題是，我需要爲每個文件列出一個唯一的ID（爲領領ID添加專欄，例如33800,33801,33802等），但我不知道如何輕鬆完成此操作，而無需手動添加新的獨特ID（如果我知道它首先引入文件GPS_Collar33800_13.csv，那麼我可以使AnimalID列值= 33800，併爲GPS_Collar33801_13.csv做同樣的事情並添加AnimalID列值= 33801）。唯一的ID是基於文件名。我們歡迎所有的建議！通過CSV文件循環 - 爲每個單獨文件發出完成任務

## List CSV files in folder 
`files<-list.files()` 

## Run a for loop to complete the same tasks for each 
for (i in 1:length(files)){ 
## Read table 
tmp<-read.table(files[i],header=FALSE,sep=" ") 
## Keep certain columns 
tmp1 <- tmp[c(2:5,9,10,12,13)] 
#Name the remaining columns 
names(tmp1) <- 
c("GMT_Date","GMT_Time","LMT_Date","LMT_Time","Latitude","Longitude","PDOP","2D_3D") 
#Add column for collar ID 
tmp1$AnimalID<-33800 
#Cleanup dataframe by removing records with NAs 
tmp1[tmp1 == "N/A"] <- NA 
tmp2<-na.omit(tmp1)

來源

2017-10-06 Buck2079

你可以試試這個：

library(stringr) 
## List CSV files in folder 
files<-list.files() 

big.df <- vector('list',length(files)) 

## Run a for loop to complete the same tasks for each 
for (i in 1:length(files)){ 
    ## Read table 
    tmp<-read.table(files[i],header=FALSE,sep=" ") 
    ## Keep certain columns 
    tmp1 <- tmp[c(2:5,9,10,12,13)] 
    #Name the remaining columns 
    names(tmp1) <- 
    c("GMT_Date","GMT_Time","LMT_Date","LMT_Time","Latitude","Longitude","PDOP","2D_3D") 
    #Add column for collar ID 
    tmp1$AnimalID<-str_match(files[i], 'Collar(\\d+)_')[,2] 
    #Cleanup dataframe by removing records with NAs 
    tmp1[tmp1 == "N/A"] <- NA 
    tmp2<-na.omit(tmp1) 
    big.df[[i]] <- tmp2 

} 
final.df <- do.call('rbind', big.df)

這將需要stringr包，並假定您的文件名看起來都像「GPS_Collar33801_13.csv」，等等，那麼它在每個文件讀取，存儲它在一個大的列表中，移動到下一個文件......當它完成時，它們將它們全部混合在一個名爲final.df的數據框中。

編輯：剛剛修正str_match的說法。

來源

2017-10-06 16:49:02 Balter

完美地工作！謝謝！ – Buck2079

@ Buck2079很高興能夠聽到它:)如果你願意接受答案，我將不勝感激......雖然我不是代表它的！（我是。） – Balter

因此，讓我確認之前，我開始，我明白問：

有關文件夾中的每個文件，
1. 導入文件作爲數據幀
2. 下降一些列
3. 重命名其餘列
4. 將數據框中的列設置爲從文件名
5. 刪除包含字符串「N/A」的任何地方
然後情況下，由每個所產生的數據幀組合到一個數據幀UNION-ING它們（即，添加的行一起因爲列應一樣）。

您提供任何此類問題的數據至關重要。如果您無法提供您的具體數據，請創建一些仍能證明問題即將出現的假數據。然後，舉例說明一旦操作完成後它應該是什麼樣子。這可以減少回答你問題的人的猜測。

因此，儘管如此，讓我們開始吧。

讓我們假設我們有一個函數process_a_file抽象出任務＃1的子部分，它將執行每個單獨文件的步驟1-5並返回一個數據幀。我可以在後面解釋這個功能的作用。

對於「每個文件」部分，您需要lapply。lapply運行提供列表中的每個元素在一個給定的功能，並返回該函數返回什麼的列表：

results_list <- lapply(files, process_a_file)

這將返回一個列表，該列表中的每個元素是process_a_file返回的數據幀。然後，你需要一個功能，把它們混合起來 - 我建議bind_rows從包裝dplyr：

results_df <- dplyr::bind_rows(results_list)

而這一切，你需要做的！

那麼，現在，我們在process_a_file中放什麼？這是很容易 - 你的代碼是這樣做的主要是完整的，但也有一些不同的方式來做到這一點，我喜歡:)

process_a_file <- function(filename) { 
    #??????? 
}

第1步是將文件導入的數據幀。爲此，我建議read_delim從readr包 - 它比默認的[R方法快得多，具有良好的默認值，讓我們通過指定「N/A」是指解決在同一時間第5步NA：

df <- readr::read_delim(filename, delim = " ", col_names = FALSE, na = "N/A")

對於第2步，用自己的方式工作，但我還建議從dplyr的select功能：

dplyr::select(df, 2:5,9,10,12,1)

您還可以索引列與不帶引號的名稱，並與-5或-column_name太刪除列 - 你可以做第3步與此同時！

df <- dplyr::select(
    df, 
    GMT_Date = 2, 
    GMT_Time = 3, 
    LMT_Date = 4, 
    LMT_Time = 5, 
    Latitude = 9, 
    Longitude = 10, 
    PDOP = 12, 
    `2D_3D` = 13 
)

重命名列的方式也很好。順便說一句，如果你用一個數字開始一個列名，你必須在任何地方使用這個`backtick`語法，所以這很不方便，如果可以的話，你應該避免它。

最後，我建議使用正則表達式從文件名中獲取ID。我假設你可以編寫正則表達式，因爲這真的超出了範圍 - 所以你可以使用basename(tools::file_path_sans_ext(filename)返回沒有路徑或擴展名的文件名，並使用stringr::str_extract彈出ID，然後使用dplyr添加到列::變異

dplyr::mutate(df, animal_id = stringr::str_extract(basename(tools::file_path_sans_ext(filename)), "THE REGEX GOES HERE"))

所以，現在，把這個一起 - 使用dplyr的管道語法%>%，以使它看起來不錯：

process_a_file <- function(filename) { 
    readr::read_delim(filename, 
        delim = " ", 
        col_names = FALSE, 
        na = "N/A") %>% 
    dplyr::select(
     GMT_Date = 2, 
     GMT_Time = 3, 
     LMT_Date = 4, 
     LMT_Time = 5, 
     Latitude = 9, 
     Longitude = 10, 
     PDOP = 12, 
     `2D_3D` = 13 
    ) %>% 
    dplyr::mutate(animal_id = stringr::str_extract(basename(tools::file_path_sans_ext(filename)), "THE REGEX GOES HERE")) 
} 
results_list <- lapply(files, process_a_file) 
results_df <- dplyr::bind_rows(results_list)

來源

2017-10-06 17:08:17

通過CSV文件循環 - 爲每個單獨文件發出完成任務

回答

相關問題