如何開始使用信息提取？

當談到信息提取時，我是一個新手。在過去的幾天裏，我讀了很多學術論文，並訂購了一本有關NLP的書。我想弄清楚如何構建一個FlipDog.com系統（希望不是從頭開始）。他們從超過60,000家公司網站提取職位空缺。我如何開始？如何開始使用信息提取？

我很樂意學習任何編程語言。有沒有人使用過Mallet/GATE/MinorThird或RoadRunner？理想情況下，我希望能夠訓練具有特定於我的域的數據集的系統，並根據此信息提取信息。你會爲此推薦哪個平臺？

謝謝！

2010-09-28 smitten11

提取工作提供的更快方式是使用dapper.net（來自網站的Web scraping服務）。你可以很容易地教導精靈使用可視化編輯器提取數據。它在你的目標網站上有表格時效果很好。

要學習信息提取，我建議從lingpipe開始。它是用於信息抽取的Java框架，因此您不需要學習框架的特定架構特性，例如Gate或Apache UIMA。在lingpipe網站上，你會發現很多教程，這將幫助你學習各種信息提取方法。之後我建議學習Gate和UIMA。

如果要實現這樣的網站，你還需要學習如何使用網絡爬蟲框架（如nutch），網絡搜索引擎（yahoo, google, bing），以及信息檢索引擎（如，apache lucene）提供搜索服務的提取數據的頂部。

更新：

對於蟒蛇，它是最好的開始：http://www.nltk.org/

2010-10-03 18:06:10 Skarab

非常感謝！我會開始看着小巧玲瓏 – smitten11 2010-10-03 22:46:00

回答