2010-06-01 64 views
0

我期待從大量非結構化文檔中提取特定項目。這些文件可能是1-5頁用戶各種方式格式化文本,但在大多數情況下,將至少包含:從非結構化文本文件中提取人口統計信息和聯繫人信息

  • 名稱
  • 地址(物理)
  • 郵箱地址
  • 電話數
  • 網站URL

我正在尋找一個語義解析,可以嘗試提取的文件這些元素,這樣我可以加載ŧ將帽子信息放入關係數據庫中,並將這些記錄作爲聯繫人使用。

我查找過的其他服務雖然對其他目的有價值,但並未解決此特定需求。

任何想法,建議或線索?

回答

0

您是否找到了導致您的問題?我發現了一些研究文章:

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192 &代表= REP1 &類型= PDF

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

但代碼上實現任何的這些想法沒有具體實例。

看看這太: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(抱歉,我排除了HTTP,這個系統是不是讓我發佈多個網址/鏈接)