2017-07-03 168 views
0

我正在處理WARC文件中存在數據的不太正常的用例。 [https://en.wikipedia.org/wiki/Web_ARChive][1] 我想將數據導入Neo4j。從WARC文件導入數據(WebArchive)

我能想到的一個解決方案是解析WARC文件(一些java代碼可以讀取),然後將結構化數據寫入CSV,然後使用一些導入工具加載它。

提取到CSV是將數據加載到Neo4j的唯一選項?

你能給我一些關於如何去實現這個用例的建議嗎?


感謝,
Phaneendra

回答

0

這要看情況。

這取決於您要從Web檔案加載什麼數據。如果您正在討論加載元數據......那麼您不需要中間步驟,處理文件並將數據直接插入到數據庫中。你可以使用存儲過程(apoc庫充滿了類似的東西)或使用你最喜歡的語言+驅動程序的小型服務器應用程序。

如果你在談論Web Archive內的內容,這是一個不同的故事。 Neo4j不是一個blob /文檔存儲,所以你將不得不提取和解釋存檔的文件。這在間接過程中可能會更有效率。

希望這有助於 湯姆

BTW CSV是不是可以裝的唯一格式。有加載XML,JSON,...

+0

的程序我想找什麼是第二個選項 - 「提取和解釋」。提取數據超出了neo4j範圍,我猜想。 因爲我在這個問題中也使用了java標籤,所以我會在這裏請求關於這個區域的一些指導。 我想後面是「如何從非結構化內容創建結構」,我希望某種配置說我想從給定的文檔中提取field1,field2 ...。提取的方法被定義在哪裏。如果有人能指出有用的資源,任何最佳實踐。那太好了。 – brownfox