2012-07-20 93 views
0

我正在製作自定義文檔比較工具。我正在比較Word文檔中的內容和網頁內容。我正在解析網頁,只是刪除文本,並將其與我從Word文檔複製到JTextarea的文本進行比較。刪除字符串中的所有格式,編號列表,項目符號列表,空格,製表符等

我想要做的就是比較文本,確保沒有拼寫錯誤或遺漏的單詞。當我解析網頁時,我沒有得到任何格式,如編號或項目符號列表。我的問題是,當我在我的Word文檔中的內容複製到我的JTextArea它保留了所有的編號列表,項目符號列表等

我要的是採取下面的文本例如:

解決方案1:重新啓動您的網絡硬件

如果Xbox LIVE性能似乎很慢,請嘗試重新啓動您的網絡硬件。這是如何:

  1. 關閉您的Xbox 360控制檯和任何網絡硬件(例如,您的調制解調器和路由器)。
  2. 等待30秒。
  3. 打開調制解調器,等待一分鐘。

,把它變成:

解決方案1:重新啓動您的網絡硬件
如果Xbox LIVE的表現似乎慢,請嘗試重新啓動您的網絡硬件。這是如何:
關閉您的Xbox 360控制檯和任何網絡硬件(例如,您的調制解調器和路由器)。
等待30秒。
打開您的調制解調器,然後等待一分鐘。

我已經有一個正則表達式來刪除所有的空行,我只是不知道我應該如何處理刪除多餘的標籤,列表樣式等有沒有人有什麼建議?

回答

2

你可以試試下面的啓發:

  • 用空格替換所有標籤頁(等)(見String.replaceAll()
  • 替換所有空間,其次,通過用戶號碼,隨後逐點在(請參閱正則表達式:|^ *\d*\\.| - carret-space-star-backslash -d-backslash-backslash-dot)
  • 替換所有系列空格(正則表達式:| +| - 空格 - 空間加)與一個空間(以刪除多餘) - 保持這作爲最後一步

你可以有添加任何其他更換邏輯,如果你遇到其他的模式,你不想

:我補充各地的正則表達式|使前導空格更容易看到,但他們都沒有輸入代碼時,正則表達式的一部分。