html-parsing

0熱度

1回答

我有一個片段這樣調用時掛起字符串： [!mysnippet?&content=`[*content*]` !] 什麼發生的是，如果我發送一些HTML這樣的： [!mysnippet?&content=`Yeah` !] 它將返回此：

0熱度

1回答

在PHP中動態修改HTML網頁的內容

我想加載一個HTML文檔並用PHP修改它的文本。例如，如果我有這樣的文檔： <html> <head><title>Test - Example.com</title></head> <body> <a href="http://www.example.com">Link number 1: Example.com</a> Link number 2: Example.

0熱度

2回答

HTML解析器將文本從身體中提取出來（在java中）

我正在研究這個項目，它要求我對從網頁獲得的文本進行一些文本處理。現在，實現這一目標的第一步就是找到一個解析器，該解析器將提取所需的正文文本，而忽略冗餘信息。我不知道我會怎麼做，因爲我對編程非常陌生。我真的很感謝任何幫助，我可以得到。在此先感謝

4熱度

2回答

如何讓BeautifulSoup將textarea標籤的內容解析爲HTML？

3.0.5之前，BeautifulSoup用於將文本區域的內容作爲HTML處理。它現在將其視爲文本。我正在解析的文檔在textarea標籤內部有HTML，我正在嘗試處理它。我已經試過： for textarea in soup.findAll('textarea'): contents = BeautifulSoup.BeautifulSoup(textarea.contents)

1熱度

2回答

了jQuery找出HTML網頁上的名字，並添加超鏈接

這是我的例子：我有機管局網站，其中包含以下內容： <body> Jim Nebraska zipcode 65437 Tony lives in California his zipcode is 98708 </body> 我想是能夠搜索郵政編碼的網頁上 <body> Jim Nebraska zipcode <a href="/65437.htm">65437</a> Tony

7熱度

3回答

PHP解析無效的HTML

我試圖解析一些HTML，是不是我的服務器 $dom = new DOMDocument(); $dom->loadHTMLfile("http://www.some-site.org/page.aspx"); echo $dom->getElementById('his_id')->item(0); 上，但PHP返回一個錯誤，像ID his_id already defi

0熱度

2回答

無法獲得的nodeValue使用DOMDocument類在PHP

我解析在PHP中使用DOMDocument類HTML文檔，我希望得到一個div元素的nodeValue，但它給我空， <div id="summary"> Hi, my name is ABC address is here at stackoverflow... .... .... </div>

2熱度

1回答

具有HTML Tidy-like功能的託管（.NET）庫？

是否有一個.NET的HTML清理器可以解析HTML並（例如）將其轉換爲更加機器友好的格式，如XHTML？我試過了HTML敏捷包，但是卻無法正確解析，即使是fairlysimple的例子。爲了讓HTML的應該正確地分析一個例子： <html><title>test</title> <body> <ul><li>TestElem1 <li>TestElem2 <

0熱度

2回答

字符串分割到較小部分與約束[PHP正則表達式HTML]

我需要長字符串分割成一個陣列，以下約束：的輸入將是HTML字符串，可以是整頁或部分的。每個部分（新的字符串）將有性格（如爲不超過8000字）有限數量的每個部分可以包含多個句子（由分隔。[句號]）但從來沒有一個部分句子。除非字符串的最後一部分（如最後部分可能沒有任何句號。字符串包含HTML標籤，但標籤不能被劃分爲（<a href='test.html'>到<a href='test。和ht

4熱度

1回答

哪一個是最好的HTML整潔包？ HTML敏捷包中有沒有任何選項可以使HTML網頁整潔？

我正在使用html敏捷包來解析html 表格信息。現在有一些html內容缺少結束標籤，並且由於缺少結束標籤而來自這樣的頁面。html敏捷包不能正確解析信息。因此，我想在結尾標籤處插入缺少結束標籤，因此html敏捷包正確解析信息。所以要插入缺失的結束標籤，我該怎麼辦？我應該寫自己的代碼，還是使用html tidy pack來做那件事？如果html tidy pack然後哪個是最好的html tid