我已經導入與Jupyter筆記本(Python的2)熊貓read_csv製表符分隔的文件中提取列名,我已經提取出的關注的Python - 熊貓 - 從數據幀
rawData = pd.read_csv(filename, delim_whitespace = True, header = 20)
columnOfInterest = rawData.ix[:, 9]
格式的單柱我感興趣的列如下所示:
header1=123;header2=123;header3=123
並非此DataFrame中的每一行都有每個標題,並且我不知道可能的標題的完整集合。 123,我的數據值都是數字。
將列中的元素分開使用後;作爲我的分隔符,我所有的行都有許多列等於行中值的數量,這在數據集中是不統一的。我想將其轉換爲缺少值的矩陣。
我想要做的是從我的DataFrame中取出每一行,提取標題信息,如果標題標籤是新的(即它不存在於已處理的任何行中),那麼我會喜歡將它添加到我的列名稱列表中。當然,我希望從行中刪除標題名稱和等號,並且我希望我的數據都處於適當的位置(所以,使用附加到每個數據值的標題信息將值放在適當的列中)。所以,我想看起來像這樣的東西:
# Original data frame, first 2 rows
['header1=123', 'header2=123', 'header3=123'] # <--- no header4
['header1=123', 'header3=123', 'header4=123'] # <--- no header2
# New data frame, first 2 rows plus column names
header1 header2 header3 header4
123 123 123 null # <--- header4 == null
123 null 123 123 # <--- header2 == null
顯然,這似乎是一個正則表達式的工作!然而,我對如何在熊貓中去解決這個問題感到不知所措。缺失的數據應該爲空。
謝謝!
聖摩西!這很完美,非常感謝。哦,還有漂亮的圖靈頭像! –
非常感謝您的幫助。做upvote並接受答案,如果有幫助 – Dark
完成!我早些時候嘗試過投票,但我沒有足夠高的代表分數。有人提出了我的問題,讓我跨入門檻,所以現在我可以高興起來! –