2016-05-14 34 views
0

我有兩個電子郵件testfiles:提卡元日期

  1. 已通過創建一個文件「另存爲」,在Mac的郵件(這將創建一個.txt文件)
  2. 的文件已經從Mac的郵件拖動電子郵件到桌面(這將創建一個.eml文件)

創建如果我養活的文件與

curl -T filename http://localhost:9998/detect/stream 

我得到這兩個文件的響應「message/rfc822」。

如果我運行

curl -T filename http://localhost:9998/meta 

我得到的元數據,但在(1)我沒有得到的日期中提取,而在情況(2)我做的情況。

我明白,當然,.eml文件包含完整的原始標題,而.txt文件只包含一個非常簡短的標題。但是,即使縮寫頭也包含一個「Date」字段,所以我認爲Tika應該提取它。這是一個錯誤還是故意的?在後一種情況下,我有什麼辦法可以讓Tika在情況(1)中提取日期?

我正在運行Tika-server 1.14。

回答

1

謝謝您開通TIKA-1970;底層的James'mime4j庫無法解析格式爲「2016年5月16日09:30:32 GMT + 1」的日期。我們將添加額外的日期解析代碼來捕獲mime4j在Tika級別無法識別的日期格式。

再次感謝您注意並在我們的JIRA上開放問題。