2011-04-13 67 views
0

我能夠在Jackrabbit中使用以下代碼成功地執行阿拉伯文本文件的文本搜索。但對於阿拉伯文PDF文件,相同的搜索不起作用。如果我在文件中給出一些非阿拉伯文文本,它給了我正確的結果,但是如果我在文件中給出了一個阿拉伯文字,它不會給我任何結果。Jackrabbit Text阿拉伯語搜索PDF文件

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2); 

QueryResult result = query.execute(); 
RowIterator ri = result.getRows(); 

    while (ri.hasNext()) {  
    Row row = ri.nextRow(); 
    System.out.println("Row: " + row.toString()); 
} 

感謝

回答

0

可能PDFBox的無法解析文件。 In this case, there should be a warning in the log file

+0

是的,我在存儲庫中添加PDF文件時收到了該警告。但是,你能告訴我我能做些什麼來使PDFBox解析帶有阿拉伯文內容的文件嗎? – Renju 2011-05-03 06:03:26

+0

恐怕我不能回答這個問題,因爲我不熟悉PDFBox。一個快速的谷歌搜索確實給了一些結果,但看起來更新的版本(也許還是測試版)的PDFBox應該能夠解析它。如果沒有,請在PDFBox列表中提問,或者在此提出另一個問題。 – 2011-05-03 06:15:14