2011-06-10 61 views

回答

3

如果你有,你需要指數也其他文件格式,你可能會發現在Apache Tika

一個更好的,更全面的解決方案,他們只是增加了一個CHM解析器最近(供參考:Support of CHM Format),這將是在下一個版本。

+0

謝謝你。我會看一下 :) – 2011-06-13 11:57:23

3

如果你正在談論Microsoft Compiled HTML Help文件,你可以用JChm從它們中提取文本,然後以正常的方式對其進行索引。

+0

thnx。我會看一下。 :) – 2011-06-10 14:04:58

+0

要小心。可能有一個二進制和一個文本(.xml存儲爲.hhk)索引,並且它們可能不包含相同的內容。 – 2011-06-11 20:06:39

+0

我用ChmParser amd使用它的檢索文件,並提出了一些解決方法。它似乎運作良好,並且.hhc問題已解決。 Thnx再次 – 2011-06-13 11:47:53

相關問題