2012-04-27 92 views
-2

我有大約30的.docx文檔(簡歷)有關人的名字,技能等數據。我需要使用這些信息填充電子表格,並且爲了減少手動工作,我認爲我可以使用文本挖掘方法。文字挖掘MS Word文檔?

是否有任何工具或途徑,將是有益的採礦(排序的半結構化)從這些文件中的信息?

+0

你可以到文件的內容與工具,如[蟒蛇-的docx(https://github.com/mikemaccana/python-docx)。獲取名字,技能等是困難的(假設他們不遵循相同的格式)。你可以嘗試手動編寫一些規則,但是如果你希望這樣做更健壯,那裏有商業工具[就像這樣](http://www.daxtra.com/parsing.html)... – Dougal 2012-04-27 18:20:18

回答

0

最好的我可以拿出來使用Perl,因爲我知道你可以使用Perl模塊pull from word documents(儘管它本身可能會很棘手)和populate xml spreadsheets

我沒有寫在憤怒的Perl在很長一段時間,所以我不能提供的如何做到這一點的例子,但如果我把東西在一起,要做到這一點,我會推薦perl的。我相信有人會說python中有相當的函數,甚至可能在Ruby中,但是perl是我用過的,我發現它對於操作/匹配/解析/處理文本非常有效。

0

您可以嘗試使用catdochttp://www.wagner.pp.ru/~vitus/software/catdoc/工具,該工具將從MS Word文件中提取文本內容,然後再進行所需的任何文本處理。我可能只是在grep的簡歷中存在對應於catdoc輸出的某些單詞。沒有必要過度設計解決方案。