2010-03-17 66 views
2

我需要一些幫助來解決這個問題。從不同的非結構化文本文件檢索信息 - 文本挖掘?

我們有一個給定指定域的大量文檔。這些文件來自不同的來源,因此它們的結構也可能非常不同。另一方面,我有一張桌子,裏面有一些指定的字段,其中一些數字必須從文檔摘錄中填寫。

例如:

X公司具有 $ 20mio業務量在2010年$ 1,000,000,將今年 Y公司交流。

結果應該是這樣的

|| Company | Year | Volume 
|| X  | 2010 | 200,000 
|| Y  | 2010 | 1000,000 

你能指出我請一些鏈接或主題,在哪裏可以找到進一步的信息如何解決這樣的問題。

我知道這裏沒有開箱即用的解決方案,但我應該在哪裏開始尋找。

在此先感謝。

回答

2

好的。有整個計算機科學實驗室致力於這種東西! 也許通過看一個叫RapidMiner

而且,這裏的工具開始有一對夫婦的研究論文標題我有PDF格式的(我沒有爲鏈接了黯然):

1.自動財務的理解聲明 神經網絡與語義語法

詹姆斯Markovitch 敦& Bradstreet公司,搜索技術1995年 月 電子郵件:[email protected] 版權所有1995年詹姆斯Markovitch

2.集成方法在文檔圖像

瑪格麗特·貝拉爾迪,米歇爾拉皮和多納託Malerba Dipartimento迪Informatica的自動語義結構提取 - 通過UNIVERSITA阿布魯Studi住宅二巴里 Orabona 4 - 70126 Bari {berardi,lapi,malerba} @ di.uniba.it

我認爲第一個會對你後面的事情有很大的興趣。不太清楚它會通過多少價值:)

+0

嗨 感謝您的信息。如果你有關於這個話題的更多信息,請發佈他們:-) – nWorx 2010-03-26 16:01:31