朋友的 我必須從url解析描述,其中解析的內容有很少的html標記,所以我怎樣才能將它轉換爲純文本。如何將HTML文本轉換爲純文本?
回答
使用HTML解析器像htmlCleaner
對於詳細的解答:How to remove HTML tag in Java
我建議通過解析jTidy原始HTML應該給你輸出,你可以寫XPath表達式反對。這是我發現的刮取HTML的最強大的方法。
剛剛擺脫HTML標籤的方法很簡單:
// replace all occurrences of one or more HTML tags with optional
// whitespace inbetween with a single space character
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");
但不幸的是要求從未如此簡單:
通常,<p>
和<div>
元素需要一個單獨的處理,有可能與CDATA塊>
字符(例如javascript)弄亂了正則表達式等。
很好,你澄清了所有的複雜性! – ankitjaininfo 2010-08-31 13:18:32
對於一些爲什麼這將不適用於一般情況下的背景,並且不會是f(u | oo)l-proof:[RegEx匹配除XHTML自包含標記以外的開放標記](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – 2017-04-12 13:00:29
您可以使用這一行刪除html標籤並將其顯示爲純文本。
htmlString=htmlString.replaceAll("\\<.*?\\>", "");
如果要解析象瀏覽器顯示,使用方法:
import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;
public class RenderToText {
public static void main(String[] args) throws Exception {
String sourceUrlString="data/test.html";
if (args.length==0)
System.err.println("Using default argument of \""+sourceUrlString+'"');
else
sourceUrlString=args[0];
if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
String renderedText=source.getRenderer().toString();
System.out.println("\nSimple rendering of the HTML document:\n");
System.out.println(renderedText);
}
}
我希望這將有助於分析也表在瀏覽器格式。
感謝, Ganesh神
downvoters請解釋他們爲什麼downvote? – koppor 2016-12-11 21:40:30
- 1. 將HTML文本轉換爲純文本
- 2. 將純文本輸入轉換爲HTML
- 3. Ruby:將HTML/Redcloth轉換爲純文本
- 4. 將html轉換爲純文本jquery .ajax
- 5. 如何將純文本轉換爲xsl
- 6. 如何將純文本轉換爲ODF?
- 7. 如何將解析的文本轉換爲純文本
- 8. 如何將MySQL中的RTF文本轉換爲純文本?
- 9. 如何將降價(WMD)文本轉換爲純文本
- 10. 如何將純文本轉換爲HTML(最好使用Perl)?
- 11. 如何將XPath元素轉換爲純HTML文本?
- 12. 將腳本html標記轉換爲純文本
- 13. 將html轉換爲文本
- 14. 如何轉換爲純文本?
- 15. 將RTF轉換爲純文本格式
- 16. 將表單轉換爲純文本
- 17. 將紡織品轉換爲純文本
- 18. 將純文本HTML轉換爲真正的HTML MySQL> Excel
- 19. 如何在jsp中將純文本表示爲html文本?
- 20. 將包含反斜槓的富文本轉換爲純文本或html
- 21. 將html轉換爲VBA中的純文本
- 22. 將html錶轉換爲monospace字體純文本表?
- 23. 將純文本電子郵件轉換爲HTML郵件
- 24. 是否有將HTML轉換爲純文本的功能?
- 25. 使用C++將HTML轉換爲純文本
- 26. 將HTML轉換爲純文本的MapKit註解
- 27. 在C中將HTML轉換爲純文本#
- 28. Outlook - 將純文本轉換爲HTML - 在2007年不起作用
- 29. 將HTML轉換爲純文本(包含<br> s)
- 30. 經典ASP(VBScript)將HTML代碼轉換爲純文本
你有什麼精確的要求?你需要去掉HTML標籤嗎?提取特定標籤的內容? – 2010-08-31 10:05:18
我可以能夠提取的內容,但內容有
ZCC dsdfsf ddfdfsf
sfdfdfdfdf, 像上面我得到我的數據,但我需要一個簡單的純text.without那些HTML標籤 – MGSenthil 2010-08-31 10:54:37有類似的問題在這裏很好的答案:http://stackoverflow.com/questions/1518675/open-source-java-library-for-html-to-text-conversion/1519726#1519726。我用傑里科,它工作正常。 – 2013-09-03 09:49:43