1
是否有最佳做法,算法或軟件(需要許可證的開放源碼...)可以從文本正文中找到信息?我指的是:過濾大量文本信息
- 找到一個文本的所有電子郵件地址
- 找到所有提及的城市
- 找到所有提及的狀態
- 找到的所有URL
- 找到所有提到的電話號碼
- 找到所有提及郵編 的......與添加更多的功能...
我聽說RapidMiner應該能夠像這樣進行文本挖掘,但AGPL並不是我的目的的可接受許可證。
有沒有什麼'標準'做這種分析?
是否有最佳做法,算法或軟件(需要許可證的開放源碼...)可以從文本正文中找到信息?我指的是:過濾大量文本信息
我聽說RapidMiner應該能夠像這樣進行文本挖掘,但AGPL並不是我的目的的可接受許可證。
有沒有什麼'標準'做這種分析?
閱讀關於Named Entity Recognition。您可以嘗試Apache OpenNLP或Apache UIMA,這兩者都具有Apache許可證。
對於這樣的實體類型,您可以使用基於規則的NER工具,如gexp。
好的術語「命名實體識別」是我錯過的關鍵字!我讀了兩本關於數據挖掘的書,並沒有遇到這種情況。謝謝! – CharlesS 2011-06-11 08:05:21