我正在使用XPath從HTML頁面選擇節。但是,當我使用XPath來提取節點時,它正確地只選擇文本圍繞 HTML標籤和而不是 HTML標籤本身。使用XPath抽取具有子節點的完整節點
樣本HTML
<body>
<div>
At first glance you may ask, “what <i>exactly</i>
do you mean?” It means that we want to help <b>you</b> figure...
</div>
</body>
我有以下XPath
/body/div
我得到以下
At first glance you may ask, “what do you mean?” It means that we want to help figure...
我想
At first glance you may ask, “what <i>exactly</i> do you mean?” It means that we want to help <b>you</b> figure...
如果您在樣本HTML注意到沒有在內容<i/>
和<b />
HTML標籤。當我提取內容時,這些標籤中的單詞會「丟失」。
我在PHP中使用SimpleXML,如果這有所作爲。
我無法重現您的結果。用echo $ result(即將simplexmlelement轉換爲字符串)並使用 - > asXML()在輸出中獲得「內部」標籤。你能提供實際的測試代碼嗎? – VolkerK 2009-10-14 14:22:50
好的,所以我轉換爲HTML,然後將其加載到SimpleXML中...編輯該問題以反映此問題。 – null 2009-10-14 18:07:27