我有以下任務要做:填寫拼寫檢查字典(簡單的txt文件)我需要解析器 哪些應該: - 解析文本文件(或其他類型的文檔),提取 每個單詞,然後創建簡單的文本文件像這樣的單詞列表: adfadf adfasdfa adfasfdasdf adsfadf ... 等 什麼腳本語言和庫你有什麼建議?如果可能,請舉例說明代碼(尤其是提取每個單詞)。謝謝!如何製作文本文件(或其他文件)解析器?
回答
你想要的不是解析器,而只是一個標記器。這可以在與一羣正則表達式的任何語言來完成,但是我不建議用Python NLTK:
>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']
一般來說,幾乎所有的NLP工具包將包括一個標記,所以沒有必要推倒重來;標記化並不困難,但它涉及編寫大量啓發式方法來處理所有例外,如縮寫,首字母縮略詞等。
謝謝!我會以這種方式發掘 – user939536
@ user939536:如果它解決了您的問題,請不要忘記單擊此答案旁邊的複選標記。 –
好吧,它真的幫助!我的aquaintants正在創建這個腳本,謝謝! – user939536
- 1. 如何解析器文件,其中包括其他文件?
- 2. Java - 解析文本文件 - 掃描儀,讀取器或其他東西?
- 3. 如何從其他控制器文件
- 4. 從文本文件解析json對象與其他東西 - Python
- 5. 解析定製的純文本文件
- 6. 如何從html文件解析文本
- 7. 如何用c#解析文本文件?
- 8. Grails如何解析文本文件?
- 9. 拆分文件以解析文本。正則表達式或其他方法
- 10. 解析日誌文件 - C#或其他任何
- 11. 如何簽署文本文件或任何其他xml
- 12. Java解析器文件文本
- 13. 解析文本文件行
- 14. Groovy解析文本文件
- 15. 解析文本文件
- 16. 解析文本文件不
- 17. 解析文本文件
- 18. 解析文本文件
- 19. C#解析文本文件
- 20. VBA文本文件解析
- 21. ios解析文本文件
- 22. Ruby - 解析文本文件
- 23. 解析文本文件
- 24. 二進制文件和其他文件
- 25. 如何識別文件是一個文本文件或其他使用c#.net
- 26. 使用Linq解析文本文件使用Linq解析文本文件
- 27. 在文本文件替換行與其他文本文件
- 28. 如何將文本文件分割爲多個其他文本文件?
- 29. 解析帶引文的文本文件
- 30. 文本解析,條件文本
您應該搜索稱爲標記器的東西,它將您的字序列劃分爲可傳遞的標記到字典。在線有很多開源項目。在這裏你可以在java中找到一種算法:http://introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html – 2011-11-10 10:59:46