Jackrabbit Text阿拉伯語搜索PDF文件

我能夠在Jackrabbit中使用以下代碼成功地執行阿拉伯文本文件的文本搜索。但對於阿拉伯文PDF文件，相同的搜索不起作用。如果我在文件中給出一些非阿拉伯文文本，它給了我正確的結果，但是如果我在文件中給出了一個阿拉伯文字，它不會給我任何結果。Jackrabbit Text阿拉伯語搜索PDF文件

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2); 

QueryResult result = query.execute(); 
RowIterator ri = result.getRows(); 

    while (ri.hasNext()) {  
    Row row = ri.nextRow(); 
    System.out.println("Row: " + row.toString()); 
}

感謝

來源

2011-04-13 Renju

可能PDFBox的無法解析文件。 In this case, there should be a warning in the log file。

來源

2011-04-28 11:51:16

是的，我在存儲庫中添加PDF文件時收到了該警告。但是，你能告訴我我能做些什麼來使PDFBox解析帶有阿拉伯文內容的文件嗎？ – Renju 2011-05-03 06:03:26

恐怕我不能回答這個問題，因爲我不熟悉PDFBox。一個快速的谷歌搜索確實給了一些結果，但看起來更新的版本（也許還是測試版）的PDFBox應該能夠解析它。如果沒有，請在PDFBox列表中提問，或者在此提出另一個問題。 – 2011-05-03 06:15:14

Jackrabbit Text阿拉伯語搜索PDF文件

回答

相關問題