cyberneko

1熱度

1回答

有誰知道是否有一種直接的方法來序列化解析的cyberneko ElementNSImpl對象？這是我在Clojure中序列化整個DOM（一個HTMLDocumentImpl對象）的例子。這有效，但我還沒有想出如何做到這一點從DOM（ElementNSImpl）的元素。 (defn dom->xml [dom] (let [sw (java.io.StringWriter.)]

0熱度

1回答

使用NekoHTML（或JTidy）逃脫的註釋+ XOM

我正在使用NekoHTML清理一些HTML，然後將其提供給XOM以獲取對象模型。在這個過程中的某個地方，評論正在逃脫。這裏的輸入HTML的相關的例子（大部分<head>切割爲清楚）： <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <ht

0熱度

1回答

使用NekoHTML解析html文檔

我使用NekoHTML框架和xerces 2.11.0版本來解析HTML文檔。但我有這個簡單的代碼有問題： DOMParser parser = new DOMParser(); System.out.println(parser.getClass().toString()); InputSource url = new InputSource("http://www.cbgarden.or

0熱度

1回答

cyberneko html設置忽略未編碼大於和小於符號

我有htmlcontent包含大於和小於符號。但是這些符號不被編碼爲& lt;和& gt ;.爲了平衡內容中的標籤，我通過cyberneko html解析器傳遞內容。解析大於和小於符號之間的內容後，就會被分離出來。爲了克服這個問題，我必須在cyberneko html解析器中設置什麼設置？樣本內容： <DIV>平均響應時間服務器是關鍵的，因爲它的值 282> 0毫秒。 <BR> [閾值詳細說

0熱度

1回答

如何使用CyberNeko獲取html內容？

def page = new XmlSlurper(new SAXParser()).parse(url) println page.body[0] 我想輸出 <body> <h1>Header</h1> </body> 在我的HTML是： <html> <head> <title>Title</title> </head>

0熱度

2回答

使用HtmlUnit時，如何配置底層NekoHtml分析器？

我使用HtmlUnit來嘗試和刮取一個網頁，因爲它的Javascript支持。（我寧願使用Jsoup，但不支持JS）。問題涉及到底層NekoHtml解析器的特點：「http://cyberneko.org/html/features/scanner/allow-selfclosing-iframe」參見：http://nekohtml.sourceforge.net/settings.ht

0熱度

1回答

XmlUtil.serialize：以大寫

輸出標籤，我想從HTML創建一個有效的HTML文檔 String content = getContent() def parser = new org.cyberneko.html.parsers.SAXParser() parser.setFeature('http://xml.org/sax/features/namespaces', false) def sl

0熱度

1回答

XmlSlurper/NekoHTML文檔片段解析 - 沒有HTML或BODY標籤想要

親愛的所有，我想解析下面的HTML片段，我想獲得相同的片段作爲輸出（沒有HTML和BODY標籤）。這可能嗎？如果是這樣，怎麼樣？謝謝米莎附：我在這裏閱讀： http://nekohtml.sourceforge.net/faq.html#fragments 我相信我在下面添加了正確的選項。但是，輸出仍然不正確:( 謝謝米莎 import groovy.xml.MarkupBuilder

2熱度

1回答

清洗混合類型<script>標籤

我使用cyberneko和xerces清理HTML。！然而，一些$＃@@ @@網站還同時使用 <script>...</script> and <script.../> 所以會發生什麼是這樣的：給定 <script..../> <div> Some Text </div> <script> scripting stuff </script> , ネ解析上述所有行的腳本，所以我得到 <s

2熱度

1回答

ClassName.class.getResourceAsStream返回Null

我將項目從Eclipse遷移到Android Studio。應用程序編譯正常，但它有與nekohtml庫有關的崩潰。內ヶ輛類 //filename = "res/HTMLlat1.properties" final InputStream stream = HTMLEntities.class.getResourceAsStream(filename); 流始終爲空。我試圖將文件移動到類