0
A
回答
2
您可以使用FileInputStream和/或BufferedReader讀取文件。您可以解析每一行,並使用正則表達式來查看是否有任何匹配的電子郵件或URL模式,並創建一個新的輸出字符串或流將其寫出。
向我們展示您嘗試過的以及您當前的代碼。
作爲附錄,我使用這些: http://www.regular-expressions.info/email.html http://daringfireball.net/2009/11/liberal_regex_for_matching_urls
有了不同程度的成功。
+0
謝謝!我做完! – Greenhorn 2012-02-17 09:57:11
0
通常在NLP系統中,文本將被標記化,並且處理URL或電子郵件地址只是將低頻標記減少到佔位符以減少數據稀疏的一種情況。假設標記化能夠將每個項目保存在一個標記中,則替換標記更容易 - 就像您可以用佔位符替換髮生率低於某個閾值的所有單詞一樣。
此外,您可能希望將Baum-Welch應用於整個業務。
0
String.replace()需要一個正則表達式和替換字符串(在你的情況「」)。使用正則表達式來處理電子郵件字段和URL以完成此任務。
相關問題
- 1. 用java通過javascript處理excel文件
- 2. 通過Java處理WSDL
- 3. 通過批處理腳本
- 4. 的Java:處理文本行
- 5. 通過Java處理c#對象
- 6. 通過java(gargoyle)在網頁上通過處理通告/確認
- 7. 通過批處理文件修剪文本文件
- 8. 如何通過java運行處理腳本
- 9. 文本文件處理 - 使用java
- 10. 通過批處理在文本文件中輸出換行
- 11. 通過java程序運行批處理文件
- 12. 如何通過批處理文件執行java
- 13. 通過批處理文件刪除
- 14. 通過文件循環批處理
- 15. 我想通過批處理文件
- 16. 通過PHP處理Excel文件
- 17. 在perl中通過rsh處理文件
- 18. 通過split()處理txt文件,說Nullpointerexception
- 19. C#通過.Net處理Zip文件
- 20. 通過批處理文件的行數
- 21. 文本處理
- 22. 文件處理Java
- 23. 通過批處理腳本訪問屬性文件
- 24. 通過交互式腳本批量處理文件
- 25. KSH shell腳本 - 通過線條的塊進行處理文件
- 26. 通過批處理文件啓用IIS 6腳本工具
- 27. 通過get方法發送和處理文本
- 28. 通過批處理文件運行WOL PowerShell腳本
- 29. 通過XSLT中的文本處理創建新元素
- 30. perl IO ::通過兩個腳本同時處理附加文件
這功課嗎? – Kylar 2011-12-28 12:53:41
不,我正在平滑數據以供給機器學習系統。 – Greenhorn 2011-12-28 12:54:48
「空白」是什麼意思?你稱之爲「電子郵件ID」是什麼? – fge 2011-12-28 12:55:55