cyberneko

    1熱度

    1回答

    有誰知道是否有一種直接的方法來序列化解析的cyberneko ElementNSImpl對象? 這是我在Clojure中序列化整個DOM(一個HTMLDocumentImpl對象)的例子。這有效,但我還沒有想出如何做到這一點從DOM(ElementNSImpl)的元素。 (defn dom->xml [dom] (let [sw (java.io.StringWriter.)]

    0熱度

    1回答

    我正在使用NekoHTML清理一些HTML,然後將其提供給XOM以獲取對象模型。在這個過程中的某個地方,評論正在逃脫。 這裏的輸入HTML的相關的例子(大部分<head>切割爲清楚): <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <ht

    0熱度

    1回答

    我使用NekoHTML框架和xerces 2.11.0版本來解析HTML文檔。 但我有這個簡單的代碼有問題: DOMParser parser = new DOMParser(); System.out.println(parser.getClass().toString()); InputSource url = new InputSource("http://www.cbgarden.or

    0熱度

    1回答

    我有htmlcontent包含大於和小於符號。但是這些符號不被編碼爲& lt;和& gt ;.爲了平衡內容中的標籤,我通過cyberneko html解析器傳遞內容。解析大於和小於符號之間的內容後,就會被分離出來。爲了克服這個問題,我必須在cyberneko html解析器中設置什麼設置? 樣本內容: <DIV>平均響應時間 服務器是關鍵的,因爲它的值 282> 0毫秒。 <BR> [閾值 詳細說

    0熱度

    1回答

    def page = new XmlSlurper(new SAXParser()).parse(url) println page.body[0] 我想輸出 <body> <h1>Header</h1> </body> 在我的HTML是: <html> <head> <title>Title</title> </head>

    0熱度

    2回答

    我使用HtmlUnit來嘗試和刮取一個網頁,因爲它的Javascript支持。 (我寧願使用Jsoup,但不支持JS)。 問題涉及到底層NekoHtml解析器的特點: 「http://cyberneko.org/html/features/scanner/allow-selfclosing-iframe」 參見:http://nekohtml.sourceforge.net/settings.ht

    0熱度

    1回答

    輸出標籤,我想從HTML創建一個有效的HTML文檔 String content = getContent() def parser = new org.cyberneko.html.parsers.SAXParser() parser.setFeature('http://xml.org/sax/features/namespaces', false) def sl

    0熱度

    1回答

    親愛的所有,我想解析下面的HTML片段,我想獲得相同的片段作爲輸出(沒有HTML和BODY標籤)。這可能嗎?如果是這樣,怎麼樣? 謝謝 米莎 附:我在這裏閱讀: http://nekohtml.sourceforge.net/faq.html#fragments 我相信我在下面添加了正確的選項。但是,輸出仍然不正確:( 謝謝 米莎 import groovy.xml.MarkupBuilder

    2熱度

    1回答

    我使用cyberneko和xerces清理HTML。 ! 然而,一些$#@@ @@網站還同時使用 <script>...</script> and <script.../> 所以會發生什麼是這樣的:給定 <script..../> <div> Some Text </div> <script> scripting stuff </script> , ネ解析上述所有行的腳本,所以我得到 <s

    2熱度

    1回答

    我將項目從Eclipse遷移到Android Studio。 應用程序編譯正常,但它有與nekohtml庫有關的崩潰。 內ヶ輛類 //filename = "res/HTMLlat1.properties" final InputStream stream = HTMLEntities.class.getResourceAsStream(filename); 流始終爲空。我試圖將文件移動到類