首次對Java進行編碼時,請耐心等待:PI試圖在Java中創建一個程序,該程序將打開一個html文件並對其進行編輯,以便刪除所有它的html標籤,但只有他們而不是其他所有東西。我假設文件已經存在,我不需要創建它。 現在我一直在使用一個.txt文件,它裏面有html代碼,爲了讓我開始更快。 到目前爲止,我已經設法編輯該文件,以便它只是刪除html標籤並將其替換爲無。然而,我真正想要的是刪除任何內部的開幕式和右括號。我會告訴什麼,我需要一個例子:替換Java中其他兩個字符之間的字符串中的所有字符
<html>
<body>
<p> blah blah blah
</p>
</body>
</html>
我的計劃已經執行後,txt文件應該只有「等等等等等等」在裏面。 爲了更換標籤,我使用:
if(myString.contains("<html>"))
{
// do stuff
}
因此,這裏是我的問題:有什麼樣的轉義字符在Java中,讓我說:
if(myString.contains("<") && it is followed by as many characters as the file wants by (">"))
//then remove everything in between them.
爲求讓我們假設.txt文件中的html代碼沒有錯誤。如果你想要,我會發布代碼,但它的結構非常糟糕,我認爲它不會幫助你理解我在做什麼。那是因爲我一直在嘗試很多東西,而且我保留了任何我可能覺得有用的評論。感謝您的時間!
可能的[在Java中剝離HTML標記]的副本(http://stackoverflow.com/questions/832620/stripping-html-tags-in-java) – nvisser