2010-08-10 49 views
10

我生成文件,我們稱之爲包含大量數據的.dwrf文件。目前我們將它們導出到.CSV,並且生成的文件很大(2GB +)。我想刪除導出過程,並直接從Excel或其他應用程序中查詢.dwrf文件的內容。如何將平面文件數據轉換爲可查詢數據源

我想要做的是編寫一個實用程序/服務 - 讓我們稱之爲dwrfMiner - 從文件中提取數據並將其作爲數據源傳遞並將dwrfMiner以某種方式鏈接到.dwrf文件,以便Excel識別它作爲外部數據源。

任何想法?

+0

您想手動,編程方式還是兩者查詢? – mcandre 2010-08-10 15:44:11

+0

兩者。我希望Excel用戶可以使用一個界面(第一個),稍後還可以使用其他過程。 – dwarFish 2010-08-10 15:46:49

+0

DWRF文件的格式是什麼?文件中的數據結構如何? – Lazarus 2010-08-10 15:52:08

回答

3

在寫的ODBC驅動程序用於這個

+1

(+1);爲了進一步考慮這一點,對於未來的軟件設計,您可能需要在定義輸出格式之前考慮這些注意事項。 – chiccodoro 2010-08-11 09:22:42

1

Excel可以查詢外部數據源,但要注意Excel(所有版本)對每個工作簿可以顯示的行數有嚴格的限制。我認爲在Excel 2003中,限制是~65k。在其他版本中更高。

看到我的問題:reporting tool/viewer for large datasets(和我有不少於> 2GB)。

+0

Excel 2007行限制爲1,048,576行:在之前的版本中,限制爲65,536行...每個工作表 – 2010-08-10 16:04:22

0

平面文件我出去gcc和自己寫一個完整的ODBC驅動程序。然後你可以坐下來使用SQL。

你知道嗎,如果你覺得無聊。 ),其具有多線程

0

使用ODBC驅動程序可能是矯枉過正,如果你是在事先知道工作文件的格式,是不是太難翻譯(它聽起來像沒有考慮到你已經在創建CSV),那麼使用ODBC DSN聽起來像是你最好的選擇。

有很多已經內置到Windows(.txt,.csv,.mdb,.xl *,.dbf,Paradox.dc等等)的ODBC驅動程序,您可以從Web獲得其他驅動程序對於很多常見的格式。

如果要導出的現有格式的大小過於繁重(CSV),那麼啓動的邏輯點就是將數據轉換爲具有ODBC支持的更具空間感的事物。

失敗的是,最後一個選項是過度殺傷選項(寫入ODBC驅動程序)。

相關問題