2010-06-05 74 views
2

我必須跟上包含諸如投標請求,政府計劃報告,威脅模型和類似事情的結構化文檔。正如我所稱的那樣,它們採用了技術術語:高度結構化,具有部分編號以及3,4和5層嵌套。全部英文版需要一個工具來搜索大型結構文本文檔中的單詞,短語和相關短語

我需要一個更有效的方法來找到對我很重要的那些段落。所以我想要的是一種本地文檔索引/存儲庫,這將允許我進行一些常規查詢,並輕鬆找到討論我的查詢的文檔中的各個部分。這裏有一個例子:

  • 我想加載10個大的PDF文件,每個說100頁。每個PDF都包含英文文本,格式很好地融入段落和章節中。

  • 我想指定我感興趣的是「博客平臺」,「弱點紅寶石」,「本地化和國際化」

  • 理想的情況下再看看列表,顯示文本的部分,文件的名稱,以及其他似乎與我指定的單詞和短語相關和/或包括這些單詞和短語的信息。

我相信這樣的事情存在。我會稱之爲文檔索引,文檔理解或結構化搜索。

回答

相關問題