我還是很新的使用python來從頭開始編程,所以作爲一個練習,雖然我會拿一個文件來處理使用SQL,嘗試使用Python來複制功能。看來我想把我的(壓縮的,zip)csv文件並創建一個Dict(或者可能是一個字典詞典?)。當我使用dict閱讀器時,我將第一行作爲關鍵字,而不是每一列作爲自己的關鍵字?例如。帶有所有列名的CSV到Python字典?
import csv, sys, zipfile
sys.argv[0] = "/home/tom/Documents/REdata/AllListing1RES.zip"
zip_file = zipfile.ZipFile(sys.argv[0])
items_file = zip_file.open('AllListing1RES.txt', 'rU')
for row in csv.DictReader(items_file,dialect='excel'):
pass
產量:
>>> for key in row:
print 'key=%s, value=%s' % (key, row[key])
key=MLS_ACCT PARCEL_ID AREA COUNTY STREET_NUM STREET_NAME CITY ZIP STATUS PROP_TYPE LIST_PRICE LIST_DATE DOM DATE_MODIFIED BATHS_HALF BATHS_FULL BEDROOMS ACREAGE YEAR_BUILT YEAR_BUILT_DESC OWNER_NAME SOLD_DATE WITHDRAWN_DATE STATUS_DATE SUBDIVISION PENDING_DATE SOLD_PRICE,
value=492859 28-15-3-009-001.0000 200 JEFF 3828 ORLEANS RD MOUNTAIN BROOK 35243 A SFR 324900 3/3/2011 2 3/4/2011 12:04:11 AM 0 2 3 0 1968 EXIST SPARKS 3/3/2011 11:54:56 PM KNOLLWOOD
所以,我正在尋找的是爲MLS_ACCT
列和一個單獨的一個PARCEL_ID
等這樣我就可以再由包含KNOLLWOOD
所有項目做這樣的事情的平均價格在SUBDIVISION
字段有日期範圍的另一個小節,銷售日期等。
我很清楚如何用SQL來完成它,但正如我所說的,我正在爭取在這裏獲得一些Python技能。 過去幾天我一直在閱讀,但在這類用例中還沒有找到任何非常簡單的插圖。指向所述文檔將不勝感激。我意識到我可以使用內存駐留的SQL-lite,但我的願望是再次學習Python方法。我在Numpy和Scipy上閱讀了一些內容,並且加載了聖人,但仍然無法找到一些有用的插圖,因爲這些工具似乎集中在只有數字作爲元素的數組,我有很多字符串匹配,我需要做以及日期範圍計算和比較。
最後我需要替換表中的值(因爲我有髒數據),我現在通過一個「翻譯表」來做到這一點,該翻譯表包含所有髒變量併爲最終使用提供「乾淨」的答案。
我們需要更多有關您正在構建的詞典結構的更多信息以給出更確切的答案...讓我們假設您將所有這些數據填入名爲'mls'的詞典中...您想如何訂購關鍵字段?城市,細分,地址等等?此外,我懷疑,在你與循環詞典鍵循環一段時間後,'sqllite'內存將更具吸引力... – 2011-04-17 18:30:26
Dan提供了基本答案這些標籤讓我大吃一驚,你提到的更廣泛的問題是現在是我的問題,正如我最初所說的,我擁有所有在SQL中工作的S **,但是我將它用作Python的學習案例。總之,我需要大部分基本組和總和/平均值(以及使用表上的替代數據創建視圖,以提供清理「髒」數據等等,以便脫離SQL但嘗試理解在Python中使用最好的結構和方法來獲得類似的結果,數據集大約有500,000行 – dartdog 2011-04-17 19:03:11