2017-08-01 53 views
0

我們已經生成了一個地塊文件,一個在Dask(Python)中,另一個在R Drill(使用Sergeant數據包)中生成。他們使用不同的parquetsee my other parquet question在R和Python之間交叉讀取地板文件

我們無法交叉讀取文件(python無法讀取R文件,反之亦然)。
在R環境中讀取Python實地圖文件時,我們收到以下錯誤:system error: Illegalstatexception: UTF8 can only annotate binary filed
當閱讀Dask中的R/Drill實木複合地板文件時,我們得到一個FileNotFoundError: [Error 2] no such file or directory ...\_metadata(這是不言自明的)。
在R和Python之間交叉讀取parquet文件有什麼選擇?

任何見解,將不勝感激。

回答

1

閱讀鑽般的實木複合地板的數據集與fastparquet/DASK,你需要考績制度文件名列表,例如,

files = glob.glob('mydata/*/*.parquet') 
df = dd.read_parquet(files) 

該錯誤會在其他方向可能是一個錯誤,或(從您的其他問題收集),可能表示您使用了固定長度的字符串,但鑽取/ R不支持它們。