從非結構化文本文件中提取人口統計信息和聯繫人信息

我期待從大量非結構化文檔中提取特定項目。這些文件可能是1-5頁用戶各種方式格式化文本，但在大多數情況下，將至少包含：從非結構化文本文件中提取人口統計信息和聯繫人信息

我正在尋找一個語義解析，可以嘗試提取的文件這些元素，這樣我可以加載ŧ將帽子信息放入關係數據庫中，並將這些記錄作爲聯繫人使用。

我查找過的其他服務雖然對其他目的有價值，但並未解決此特定需求。

任何想法，建議或線索？

2010-06-01 jn29098

您是否找到了導致您的問題？我發現了一些研究文章：

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192 &代表= REP1 &類型= PDF

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

但代碼上實現任何的這些想法沒有具體實例。

看看這太： stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

（抱歉，我排除了HTTP，這個系統是不是讓我發佈多個網址/鏈接）

2010-07-26 20:52:53 user402730

回答