2011-11-10 51 views
-2

我有以下任務要做:填寫拼寫檢查字典(簡單的txt文件)我需要解析器 哪些應該: - 解析文本文件(或其他類型的文檔),提取 每個單詞,然後創建簡單的文本文件像這樣的單詞列表: adfadf adfasdfa adfasfdasdf adsfadf ... 等 什麼腳本語言和庫你有什麼建議?如果可能,請舉例說明代碼(尤其是提取每個單詞)。謝謝!如何製作文本文件(或其他文件)解析器?

+0

您應該搜索稱爲標記器的東西,它將您的字序列劃分爲可傳遞的標記到字典。在線有很多開源項目。在這裏你可以在java中找到一種算法:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html – 2011-11-10 10:59:46

回答

2

你想要的不是解析器,而只是一個標記器。這可以在與一羣正則表達式的任何語言來完成,但是我不建議用Python NLTK

>>> from nltk.tokenize import word_tokenize 
>>> word_tokenize('Hello, world!') 
['Hello', ',', 'world', '!'] 

一般來說,幾乎所有的NLP工具包將包括一個標記,所以沒有必要推倒重來;標記化並不困難,但它涉及編寫大量啓發式方法來處理所有例外,如縮寫,首字母縮略詞等。

+0

謝謝!我會以這種方式發掘 – user939536

+0

@ user939536:如果它解決了您的問題,請不要忘記單擊此答案旁邊的複選標記。 –

+0

好吧,它真的幫助!我的aquaintants正在創建這個腳本,謝謝! – user939536