2017-05-24 118 views
0

我給一個HTML文件,我需要的文字將它移動到一個新的文本文件,我將創建。我不知道我是否在正確的軌道上。我應該先把它變成一個文檔然後是一個文本文件?我目前的做法是正確的嗎?對不起,我是這個初學者,很困惑。轉換HTML文件成文本文件

public void parseIntoFile(){ 
    Document docParse = Jsoup.parse("example.html"); 
} 

回答

1

HTML通常用於描述文檔,因此它已經是一個文檔。你的任務是蒐集該文檔的描述部分放在一起的文本文件,你選擇適合的方式。比如,一個<h1>是一個網頁的標題。 <p>包含一個段落文本等等和。

這是部分地在頂部文檔類型(DTD)的原因。它描述了文檔中的每個元素的「類型」或意義的文檔類型定義。