html-parsing

    0熱度

    1回答

    我有一個片段這樣調用時掛起字符串: [!mysnippet?&content=`[*content*]` !] 什麼發生的是,如果我發送一些HTML這樣的: [!mysnippet?&content=`<p color='red'>Yeah</p>` !] 它將返回此: <p colo 的[測試僅]代碼段(mysnippet)爲: <?php return $content; ?>

    0熱度

    1回答

    我想加載一個HTML文檔並用PHP修改它的文本。例如,如果我有這樣的文檔: <html> <head><title>Test - Example.com</title></head> <body> <p><a href="http://www.example.com">Link number 1: Example.com</a></p> <p>Link number 2: Example.

    0熱度

    2回答

    我正在研究這個項目,它要求我對從網頁獲得的文本進行一些文本處理。 現在,實現這一目標的第一步就是找到一個解析器,該解析器將提取所需的正文文本,而忽略冗餘信息。我不知道我會怎麼做,因爲我對編程非常陌生。我真的很感謝任何幫助,我可以得到。 在此先感謝

    4熱度

    2回答

    3.0.5之前,BeautifulSoup用於將文本區域的內容作爲HTML處理。它現在將其視爲文本。我正在解析的文檔在textarea標籤內部有HTML,我正在嘗試處理它。 我已經試過: for textarea in soup.findAll('textarea'): contents = BeautifulSoup.BeautifulSoup(textarea.contents)

    1熱度

    2回答

    這是我的例子: 我有機管局網站,其中包含以下內容: <body> Jim Nebraska zipcode 65437 Tony lives in California his zipcode is 98708 </body> 我想是能夠搜索郵政編碼的網頁上 <body> Jim Nebraska zipcode <a href="/65437.htm">65437</a> Tony

    7熱度

    3回答

    我試圖解析一些HTML,是不是我的服務器 $dom = new DOMDocument(); $dom->loadHTMLfile("http://www.some-site.org/page.aspx"); echo $dom->getElementById('his_id')->item(0); 上,但PHP返回一個錯誤,像ID his_id already defi

    0熱度

    2回答

    我解析在PHP中使用DOMDocument類HTML文檔,我希望得到一個div元素的nodeValue,但它給我空, <div id="summary"> Hi, my name is <span>ABC</span> <br/> address is here at stackoverflow... <span>.... .... </div>

    2熱度

    1回答

    是否有一個.NET的HTML清理器可以解析HTML並(例如)將其轉換爲更加機器友好的格式,如XHTML? 我試過了HTML敏捷包,但是卻無法正確解析,即使是fairlysimple的例子。 爲了讓HTML的應該正確地分析一個例子: <html><title>test</title> <body> <ul><li>TestElem1 <li>TestElem2 <

    0熱度

    2回答

    我需要長字符串分割成一個陣列,以下約束: 的輸入將是HTML字符串,可以是整頁或部分的。 每個部分(新的字符串)將有性格(如爲不超過8000字) 有限數量的每個部分可以包含多個句子(由分隔。[句號])但從來沒有一個部分句子。 除非字符串的最後一部分(如最後部分可能沒有任何句號。 字符串包含HTML標籤,但標籤不能被劃分爲(<a href='test.html'>到<a href='test。和ht

    4熱度

    1回答

    我正在使用html敏捷包來解析html 表格信息。現在有一些html內容缺少結束標籤,並且由於缺少結束標籤而來自這樣的頁面。html敏捷包不能正確解析信息。因此,我想在結尾標籤處插入缺少結束標籤,因此html敏捷包正確解析信息。所以要插入缺失的結束標籤,我該怎麼辦?我應該寫自己的代碼,還是使用html tidy pack來做那件事? 如果html tidy pack然後哪個是最好的html tid