2010-09-28 76 views
3

當談到信息提取時,我是一個新手。在過去的幾天裏,我讀了很多學術論文,並訂購了一本有關NLP的書。我想弄清楚如何構建一個FlipDog.com系統(希望不是從頭開始)。他們從超過60,000家公司網站提取職位空缺。我如何開始?如何開始使用信息提取?

我很樂意學習任何編程語言。有沒有人使用過Mallet/GATE/MinorThird或RoadRunner?理想情況下,我希望能夠訓練具有特定於我的域的數據集的系統,並根據此信息提取信息。你會爲此推薦哪個平臺?

謝謝!

回答

3

提取工作提供的更快方式是使用dapper.net(來自網站的Web scraping服務)。你可以很容易地教導精靈使用可視化編輯器提取數據。它在你的目標網站上有表格時效果很好。

要學習信息提取,我建議從lingpipe開始。它是用於信息抽取的Java框架,因此您不需要學習框架的特定架構特性,例如Gate或Apache UIMA。在lingpipe網站上,你會發現很多教程,這將幫助你學習各種信息提取方法。之後我建議學習Gate和UIMA。

如果要實現這樣的網站,你還需要學習如何使用網絡爬蟲框架(如nutch),網絡搜索引擎(yahoo, google, bing),以及信息檢索引擎(如,apache lucene)提供搜索服務的提取數據的頂部。

更新:

對於蟒蛇,它是最好的開始:http://www.nltk.org/

+0

非常感謝!我會開始看着小巧玲瓏 – smitten11 2010-10-03 22:46:00