2011-06-10 40 views
1

是否有最佳做法,算法或軟件(需要許可證的開放源碼...)可以從文本正文中找到信息?我指的是:過濾大量文本信息

  • 找到一個文本的所有電子郵件地址
  • 找到所有提及的城市
  • 找到所有提及的狀態
  • 找到的所有URL
  • 找到所有提到的電話號碼
  • 找到所有提及郵編 的......與添加更多的功能...

我聽說RapidMiner應該能夠像這樣進行文本挖掘,但AGPL並不是我的目的的可接受許可證。

有沒有什麼'標準'做這種分析?

回答

1

閱讀關於Named Entity Recognition。您可以嘗試Apache OpenNLPApache UIMA,這兩者都具有Apache許可證。

+0

好的術語「命名實體識別」是我錯過的關鍵字!我讀了兩本關於數據挖掘的書,並沒有遇到這種情況。謝謝! – CharlesS 2011-06-11 08:05:21

1

對於這樣的實體類型,您可以使用基於規則的NER工具,如gexp