2014-10-02 54 views
1

我一直在關於Dspace的一個項目 我一直在使用安然郵件語料庫(從CMU源下載)。Dspace Enron搜索工具

我的問題是:

  1. 我想利用600K電子郵件整個集合,然後生成一個倉庫使他們的搜索

每封郵件的手動進元是不是一個可行的選擇因爲它們是數百萬人! Dspace中的導入工具可以提供任何幫助嗎?或者是否有要編輯的文件?

我需要一些可行和快速的方法:我該怎麼做才能給系統提供這麼多郵件?

  1. 第二個問題:可以將任何集合中的附加文件編入索引嗎?我的意思是我可以搜索文件搜索工具的內容嗎?

回答

1

如果要編輯或導入大量數據,可以使用批量元數據編輯。它非常適合導入元數據值,但必須稍後手動添加文件。 有關更多信息,請致電https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFiles

關於第二個問題,有一個索引支持文件名爲「Filter-media」的過程。它支持Adobe PDF,HTML,文本,Microsoft Word和Microsoft Powerpoint。你可以編寫一個java類來索引其他格式來滿足你的需求。 它執行/ bin/dspace filter-media,應該添加爲cron。