下載「csv-like」文本數據文件，並將其轉換爲python格式的CSV文件

第一個問題在這裏可以原諒禮儀中的任何失誤。下載「csv-like」文本數據文件，並將其轉換爲python格式的CSV文件

我是新來的蟒蛇。我有一個小型項目，我試圖通過實際的理由和學習經歷來完成，也許這裏有些人可以幫助我。有一個我經常從中檢索數據的專有系統。不幸的是，他們不使用標準的CSV格式。他們使用一個奇怪的角色來分離數據，它是一個‡。我需要CSV格式的文件才能導入到另一個系統。所以我需要做的是採取的數據和替換特殊字符（用逗號）和格式化數據通過刪除其他小事情，如無法識別的字符等空白......所以這是我需要它在CSV導入它的方式。

我想學習一些python，所以我想我會寫在Python中。我將從webservice URL中讀取它，但現在我只是以我收到的相同格式獲得一些測試數據。

實際上，每次請求都會有大量數據，但是當我明白如何正確檢索和處理數據時，我可以對其進行擴展。

到目前爲止我的代碼只是試圖讀取和寫入數據的兩列：

import requests 
import csv 

r = requests.get ('https://www.dropbox.com/s/7uhheam5lqppzis/singlelineTest.csv?dl=0') 
data = r.text 
with open("testData.csv", "wb") as csvfile: 
f = csv.writer(csvfile) 
f.writerow(["PlayerID", "Partner"]) # add headers 
for elem in data: 
f.writerow([elem["PlayerID"], elem["Partner"]])

我得到這個錯誤。文件「csvTest.py」，14號線在 f.writerow（[ELEM [ 「PlayerID」]，ELEM [ 「合夥人」]]）類型錯誤：字符串索引必須是整數

它通過可能是明顯我不知道如何操縱數據，也沒有正確讀取數據。我能夠撤回一些JSON數據並輸出它，所以我知道這個結構在標準化數據的核心工作。

在此先感謝您的任何提示。

我會繼續捅它。

示例數據位於腳本中提及的保管箱鏈接處。

https://www.dropbox.com/s/7uhheam5lqppzis/singlelineTest.csv?dl=0

來源

2016-02-28 Carver Stone

'elem'是字符串'data'中的一個字符。 – Forge

存在多個問題。首先，鏈接不正確，因爲它返回html。要獲取原始文件，使用方法：

r = requests.get ('https://www.dropbox.com/s/7uhheam5lqppzis/singlelineTest.csv?dl=1')

然後，數據是一個字符串，所以elem in data會遍歷字符串，這是不是你想要的在所有的字符。

然後，你的數據是unicode，而不是字符串。所以你需要先解碼它們。

這裏是你的程序，有了一些變化：

導入請求導入CSV

r = requests.get ('https://www.dropbox.com/s/7uhheam5lqppzis/singlelineTest.csv?dl=1') 
data = str(r.text.encode('utf-8').replace("\xc2\x87", ",")).splitlines() 


headers = data.pop(0).split(",") 

pidx = headers.index('PlayerID') 
partidx = headers.index('Partner') 

with open("testData.csv", "wb") as csvfile: 
    f = csv.writer(csvfile) 
    f.writerow(["PlayerID", "Partner"]) # add headers 
    for data in data[1:]: 
     words = data.split(',') 
     f.writerow([words[pidx], words[partidx]])

輸出：

PlayerID,Partner 
1038005,EXT 
254034,EXT

來源

2016-02-28 08:20:16 Derlin

令人驚歎。只是複製和粘貼，它馬上就可以工作。非常感謝！我會馬上回答。我只是先讀一下，我想完全理解它。這並不難，但我想確保我知道。我會發布任何問題，如果你不介意回答他們，只要你看到他們。再次感謝您的答覆！ –

太棒了，另一個腳本kiddy得到他們的翅膀感謝所以SO –

@JarrodRoberson不知道得到您的評論。這是正面還是負面？如果我做錯了，請馬上告訴我，兒子我下次不會這樣做。 – Derlin

使用split：

lines = data.split('\n') # split your data to lines 

headers = lines[0].split('‡') 
player_index = headers.index('PlayerID') 
partner_index = headers.index('Partner') 

for line in lines[1:]: # skip the headers line 
    words = line.split('‡') # split each line by the delimiter '‡' 
    print words[player_index], words[partner_index]

對於這項工作，加入這一行到你的文件的頂部定義你的python源代碼作爲UTF-8編碼：

# -*- coding: utf-8 -*-

瞭解更多關於它PEP 0263。

來源

2016-02-28 08:20:58 Forge

謝謝我正在嘗試合併此。它給了我一個ASCII碼錯誤。它不喜歡腳本中的‡。我可以使用HTML或其他方式來表示角色嗎？還是我需要包括一些東西來支持這個字符？ –

已更新答案@CarverStone – Forge

謝謝。我應該首先使用Google搜索，我的不好：P –

下載「csv-like」文本數據文件，並將其轉換爲python格式的CSV文件

回答

相關問題