將CSV列內容拆分爲多列

我正試圖將另一部分綁定到現有的Python程序中。我對Python很陌生，即使有所有的幫助，也無法解決這個問題。我將在下面列出我現有的Python程序，我只想添加另一部分來執行另一個任務。將CSV列內容拆分爲多列

當前程序打開「initial.csv」，並在第一列中查找任何關鍵字。如果它匹配，它將行寫入「listname_rejects.csv」和任何不匹配的行中，它將寫入「listname.csv」。這聽起來倒退了，但對於我所做的，這是正確的。我用過它一千次。

現在，我想添加到這裏，是能夠看第2列（充滿地址），並將它們分成不同的列。例如，這 -

Name,Address,Phonenumber,ID 
John,"123 Any Street, New York, NY 00010",999-999-9999,321654

打開到這個 -

Name,Street,City,State,Zipcode,Phonenumber,ID 
John,123 Any Street, New York, NY, 00010,999-999-9999,321654

基本上，我需要能夠到第二列爆炸成單獨的列。我不需要在第2列中填寫整個地址，而是需要在第2列，3列，4列，&之間將其拆分。5.

我發現在堆棧溢出上接近此事件，但是又是新的到Python，並不知道如何將它們分成我的當前代碼。

key_words = [ 
'Suzy', 
'Billy', 
'Cody', 
] 

listname = raw_input ("Enter List Name:") 
listname_accept = (listname) + '.csv' 
listname_rejects = (listname) + '_rejected.csv' 

with open('initial.csv', 'r') as oldfile, open(listname_accept, 'w') as cleaned: 
    for line in oldfile: 
     if not any(key_word in line.split(",", 1)[0] for key_word in key_words): 
      cleaned.write(line)  
     else: 
      matched.write(line)

來源

2016-12-14 CFraley

我注意到兩件事：你的代碼沒有實現CSV。使用['csv']（https://docs.python.org/3/library/csv.html）模塊。這很容易，並避免了許多錯誤。其次：如果你想正確處理地址，解析地址並不是微不足道的。做一些搜索找到一些瘋狂的方式，在美國發生有效的街道和地址號碼。 – dsh

謝謝。我將在我的代碼中實現csv。我的csv文件中的地址都具有相同的共同趨勢，所以我想我可以實現一些東西。 – CFraley

@CFraley您能否始終保證「地址」符合以下格式：「」,,「'？ – LMc

讓我知道，如果這個工程，我可能混淆了你的輸出CSV的名字，但你可以根據你的邏輯調整這些：

import csv 

key_words = [ 
'Suzy', 
'Billy', 
'Cody', 
] 

listname = raw_input ("Enter List Name:") 
listname_accept = (listname) + '.csv' 
listname_rejects = (listname) + '_rejected.csv' 

with open('initial.csv') as oldfile, open(listname_accept,'w') as cleaned, open(listname_rejects,'w') as matched: 
    accept_writer=csv.writer(cleaned) # create one csv writer object 
    reject_writer=csv.writer(matched) # create second csv writer object 
    initial_reader=csv.reader(oldfile) 
    for c,row in enumerate(initial_reader): # read through input csv 
     if c==0:       # first row is the header 
      header=row[:] 
      del header[1]  # delete 'address' 
      header[1:1]=['Street','City','State','Zipcode'] # insert these column names 
      accept_writer.writerow(header)     # write column names to csv 
      reject_writer.writerow(header)     # write column names to csv 
     else:            # for all other input rows, except the first 
      address_list=[i.strip() for i in row[1].split(',')] # split the address by comma 
      all_address=address_list[:-1]+address_list[-1].split() # split the state and zip by space 
      del row[1]            # delete original string address from row 
      row[1:1]=all_address         # insert new address 
      if row[0] not in key_words:       # test if name in key_words 
       accept_writer.writerow(row) 
      else: 
       reject_writer.writerow(row)

我已經插入註釋，以幫助您瞭解這是怎麼回事。

來源

2016-12-14 23:05:25 LMc

它非常接近。我搞砸了它，讓它工作並繼續打破它。我確切地看到你在做什麼......但是，在我的原始代碼中，我正在查看第0列以查看它是否包含任何關鍵字。我相信你的寫作方式，如果它是一個關鍵字。這就是爲什麼我在那裏有line.split。你能否告訴我可以在哪裏添加這個？其他一切似乎都在起作用。 – CFraley

其實，我想出來了...... 如果行[0] .split（「，」，1）[0]中的key_word沒有變化，我就改變了如果行[0]不在key_words中：'到 ' key_word在key_words中）：' – CFraley

@CFraley我對此有點困惑。在這一行的例子中，你正在測試「John」是否在「Suzy」，「Billy」或「Cody」中，這是「False」。 'not'將聲明翻轉爲'True'並寫入'accept_writer'。但更簡潔的方法來檢查這個成員資格是寫'約翰'不是在key_words'（即'行[0]不在key_words'，這是'真'，併產生你同樣的事情，但更緊湊和更快，我錯過了什麼嗎？ – LMc

希望明年代碼可以幫助你：我把我自己的CSV文件的名字，但你可以自定義他們主要的想法是，你可以創建一個列的CSV你在你的文件需要什麼，正確分割字符串

問候

import csv 

to_validate = ["name1", "name2"] 

""" 
file_to_read.csv has 
Name,Address,Phonenumber,ID 
John,"123 Any Street, New York, NY 00010",999-999-9999,321654 
""" 

file_to_read = csv.DictReader(open("file_to_read.csv", 'r'), delimiter=',', quotechar='"') 
headers_wrote = False 


for row in file_to_read: 
    if row["Name"] in to_validate: 
     # do some stufs 
     pass 
    else: 
     to_write = { 
      "Name": row["Name"], 
      "Street": row["Address"].split(",")[0].strip(), 
      "City": row["Address"].split(",")[1].strip(), 
      "State": row["Address"].split(",")[2].strip().split(" ")[0].strip(), 
      "Zipcode": row["Address"].split(",")[2].strip().split(" ")[1].strip(), 
      "Phonenumber": row["Phonenumber"], 
      "ID": row["ID"] 
     } 
     with open("example_file.csv", 'w+') as csvfile: 
      if not headers_wrote: 
       fieldnames = ["Name", "Street", "City", "State", "Zipcode", "Phonenumber", "ID"] 
       writer = csv.DictWriter(csvfile, fieldnames = fieldnames, delimiter = ",") 
       writer.writeheader() 
       writer.writerow(to_write) 
       headers_wrote = True 
      else: 
       writer = csv.DictWriter(csvfile, fieldnames = fieldnames, delimiter = ",") 
       writer.writerow(to_write)

來源

2016-12-14 23:17:13

althought的問題已經回答了我覺得你應該拓寬自己的知識與pandas模塊。我只實現了分割地址行的部分。如果你願意，我可以告訴你其餘的。 pandas有時可能不直接，但一旦你習慣了它，這是最容易的方法去處理許多 csv問題（更不用說其他偉大的功能：使用數據庫等）。該代碼在我的github頁面上可見。看一看！

來源

2016-12-15 20:33:32 quapka

將CSV列內容拆分爲多列

回答

相關問題