從不同的非結構化文本文件檢索信息 - 文本挖掘？

我們有一個給定指定域的大量文檔。這些文件來自不同的來源，因此它們的結構也可能非常不同。另一方面，我有一張桌子，裏面有一些指定的字段，其中一些數字必須從文檔摘錄中填寫。

例如：

X公司具有 $ 20mio業務量在2010年$ 1,000,000，將今年 Y公司交流。

結果應該是這樣的

|| Company | Year | Volume 
|| X  | 2010 | 200,000 
|| Y  | 2010 | 1000,000

你能指出我請一些鏈接或主題，在哪裏可以找到進一步的信息如何解決這樣的問題。

我知道這裏沒有開箱即用的解決方案，但我應該在哪裏開始尋找。

在此先感謝。

2010-03-17 nWorx

好的。有整個計算機科學實驗室致力於這種東西！也許通過看一個叫RapidMiner

而且，這裏的工具開始有一對夫婦的研究論文標題我有PDF格式的（我沒有爲鏈接了黯然）：

1.自動財務的理解聲明神經網絡與語義語法

2.集成方法在文檔圖像

瑪格麗特·貝拉爾迪，米歇爾拉皮和多納託Malerba Dipartimento迪Informatica的自動語義結構提取 - 通過UNIVERSITA阿布魯Studi住宅二巴里 Orabona 4 - 70126 Bari {berardi，lapi，malerba} @ di.uniba.it

我認爲第一個會對你後面的事情有很大的興趣。不太清楚它會通過多少價值:)

2010-03-17 11:03:20

嗨感謝您的信息。如果你有關於這個話題的更多信息，請發佈他們:-) – nWorx 2010-03-26 16:01:31

回答