2014-08-29 48 views
1

我最近得到了Freebase的RDF dump。這是一個壓縮的zip文件,大約25GB,但未壓縮的版本可以達到250GB。 我已經全部在EC2實例上進行設置。如何使用clj-plaza閱讀壓縮的RDF zip?

有一張紙條,上面寫着:

如果你正在編寫自己的代碼來解析RDF清除其往往更有效直接從gzip文件讀取,而不是首先提取數據,然後將處理未壓縮的數據。

我剛開始看着clj-plaza來查詢RDF,現在我想知道如何在不解壓文件的情況下讀取這些數據?

回答

2

事情是這樣的:

(with-open [stream (java.util.zip.GZIPInputStream. 
        (clojure.java.io/input-stream 
         (clojure.java.io/file "my-file.zip")))] 
    (document-to-model stream :ntriple)) 

已經提到plaza.rdf.core

應該做的伎倆? (流式傳輸數據)。