是否存在Apache Tika中application/octet-stream
類型的解析器?我想這是一個不可分析的流。從未知內容類型的文檔中提取文本
我只需要解析ODS文檔,MS文檔和PDF文件。看來new Tika().parseToString(file);
就夠了。但我不知道內容類型未檢測到時會發生什麼 - >application/octet-stream
是默認設置。如果我有機會從這些類型的文檔中提取文本,但contentType檢測器未檢測到它們的類型。
我還應該嘗試什麼,而不是將文檔返回給用戶,告訴他它不支持格式。
或者真的是由此產生的application/octet-stream
內容類型的信號,我們不能讀這個?或者「你必須找出自己的方式來處理這個問題」?
謝謝,並且在Tika中如何處理MIME只想使用的文件擴展名的類型和範圍?默認情況下,它會加載tika-mimetypes.xml文件中的所有MIME類型和文件擴展名,並將其加載到MimeTypes.types和MimeTypes.registry中。我是否必須創建自己的tika-mimetypes.xml?或者我可以加載與MIME類型定義不同的文件?只有加載文件的MimeTypes.getDefaultMimeTypes()。 – lisak 2011-04-05 10:43:45
你的意思是你想刪除某些默認情況下的MIME類型的檢測嗎?如果是這樣,那麼目前只有easy-ish選項是自定義tika-mimetypes.xml並且讓你的版本在類路徑中更早地出現,所以它被優先使用。如果您想要檢測一些新的mimetypes,最簡單的方法是提交一個補丁,以便將其包含在上游! – Gagravarr 2011-04-05 13:30:09
我想刪除90%的MIME類型的檢測。只應檢測與這些擴展名html,doc,docx,odt,txt,rtf,srt,sub,pdf,ods,odp,xls,ppt,msg相對應的MIME類型。應該拒絕具有不同MIME類型的其他文件。我使用ContainerAwareDetector和MimeTypes檢測器作爲後備檢測器...我希望這是一個不錯的選擇 – lisak 2011-04-05 17:45:57