我想從csv文件創建地板文件。出於測試目的,我有一段代碼讀取一個文件,並將其轉換爲熊貓數據幀,然後轉換爲pyarrow表。此表然後存儲在AWS S3上,並希望在表上運行配置單元查詢。實木複合地板創建從熊貓數據框轉換爲pyarrow表不適用於對象dtype
Inputfile中的內容:
YEAR|WORD
2017|Word 1
2018|Word 2
代碼:
dataFrame=pd.read_csv(inputFile, sep='|')
print(dataFrame)
print(dataFrame.dtypes)
print(dataFrame.columns)
dataFrame['C1'] = dataFrame['C1'].astype('str')
print(dataFrame.dtypes)
table=pa.Table.from_pandas(dataFrame)#,schema=pa.string())
pq.write_table(table, outputFile)
寫入pyarrow表後,我詢問了拼花文件,以確保數據良好將存儲在S3。然而結果很奇怪:
+--------+--------------+
| YEAR | WORD |
+--------+--------------+
| 2017 | [[email protected] |
| 2018 | [[email protected] |
+--------+--------------+
不知何故int值顯示很好,但是object/str值沒有被正確轉換。
感謝您對此的幫助。
謝謝。
嗨,你會介意https://issues.apache.org打開的問題/ jira/browse/ARROW,我們可以幫助調試嗎? –
這是一個跟蹤此問題的箭頭問題:https://issues.apache.org/jira/browse/ARROW-785 – Jeff
更新了JIRA的更多細節。使用以下版本 – Ash