tag-soup

    2熱度

    1回答

    我有一個動態內容由抓取工具提供。但有時這些內容在HTML中有問題(沒有關閉標籤,標籤關閉而沒有打開等)。所以,這個錯誤的內容打破了整個頁面,因爲關閉或打開了他們不應該的東西。 HTML的常見錯誤。 <div><p>foo</p> <p>bar</p></div> <p><a>link</p></a> 如何把這個內容在沙箱中,以不破的頁面?由於SEO而無法使用iframe。

    1熱度

    1回答

    我在印象之下可以使用TagSoup將HTML轉換爲XHTML。我將tagsoup jar文件保存爲tagsoup.jar我使用以下命令wget -O usa_stock.html "http://markets.usatoday.com/custom/usatoday-com/new/html-mktscreener.asp#" | java -jar tagsoup.jar usa_stock.

    6熱度

    1回答

    我一直在試圖學習如何從Haskell中的HTML文件中提取數據,並且遇到了困難。我根本沒有真正的Haskell經驗,我以前的知識來自Python(和BeatifulSoup for HTML解析)。 我正在使用TagSoup來看看我的HTML(似乎是推薦),並有一個它如何工作的基本思路。下面是我的代碼有問題的基本段(自包含的,用於測試輸出信息): import System.IO import

    3熱度

    1回答

    解析Groovy中的XML應該是一件小事,但我總是遇到問題。 我想解析字符串是這樣的: <html> <p> This is a <span>test</span> with <b>some</b> formattings.<br /> And this has a <ac:special>special</ac:special> formatting. </p> </html

    2熱度

    1回答

    尋找TagSoup和JSoup之間關於真實世界文檔的性能比較。到目前爲止,我一直在使用TagSoup進行HTML處理,並且它工作得很好。唯一的缺點是由於SAX本質,應該使用堆棧以編程方式完成大量的工作(例如用於處理帶有標記的文本)。 JSoup看起來更簡潔 - 但我關心的是性能。

    0熱度

    1回答

    JDOM分析器用於解析和轉換html文件到XML文件。解析HTML文件自終止標記後,即使它有一個子節點。 輸入的Html <li id="fieldId1" fieldtype="dropdownFromList"> <span> <sflabel path="polProdCode"> <fmtmessage key="mpolicy.policy.polProdC

    2熱度

    2回答

    我正在研究一個產品,我需要解析一個HTML文檔。我尋找Jericho,TagSoup,Jsoup和Crawl4J。我應該使用哪個解析器來解析HTML,因爲我需要在使用石英的多線程環境中運行此過程? 一次,如果10個線程在內存中運行,那麼我需要一個消耗更少內存的API。在jericho中,我在某處讀到它是基於文本的搜索API並消耗較少的內存。我對嗎?或者我應該去爲其他,爲什麼?

    2熱度

    1回答

    我想使用JMeter從網頁中檢索內容。 我正在尋找的數據是一個JavaScript塊中: (...) <map id="id1"> <script type="text/javascript"> var name="Lionel Richie"; var song="Hello"; var lyrics="Is it me you're looking f

    0熱度

    1回答

    我試圖抓取node.js web應用程序中網站的描述。它似乎是完美的工作,但是node.js似乎與NCR字符有關(http://en.wikipedia.org/wiki/Numeric_character_reference)。我對鏈路抓取器的代碼如下所示 getInfo:(url) -> errorMessage = 'Invalid Link' request(url,

    0熱度

    2回答

    當我執行此C#代碼... using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Text.Regula