2016-09-23 65 views
3

我想使用tdbloader將YAGO 3 rdf三元組(yago3_entire_ttl.7z從http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/)用到apache-jena triplestore(3.1.0)。在加載到Apache-jena TDB triplestore之前清理YAGO文件

由Apache的設置Jena的驗證輸入的防暴工具提供2種類型的錯誤(多次出現):

  1. 非法Unicode轉義序列值:\\(0x5C)在IRI
  2. 非法字符(代碼點0x7C,'|')

我明顯的想法是用'\'和'|'代替。與接受的字符序列,通過暴亂驗證,但我想知道是否有其他解決方案?

+0

同樣的問題在這裏,任何想法? – n1try

+1

不是一個解決方案,而是我的解決方法:我最終將Openlink的Virtuoso的開源版本與jena庫一起用作triplestore。在Centos Linux 7上導入670Mio三元組沒有問題。 –

回答

0

找到了解決辦法在這裏:

現在.ttl文件需要得到某種形式的預處理,其中非Unicode字符是爲了取代了耶拿接受數據。在Linux上運行sed -i's/|/-/g'./ * & & sed -i's/\\/-/g'./ * & & sed -i's/-/-/g' ./*從您的.ttl文件所在的目錄中。在Windows上,啓動Ubuntu Bash,導航到相應的目錄(例如/ mnt/c/Users/Ferdinand/yago)並執行相同的命令。這將需要幾分鐘的時間。我的意思是,真的幾個...

https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html

+0

這可以用來解決URI的空間問題嗎? – RDangol

相關問題