我有一個XML文件,我正在從網上解析。 XML中的項目之一是具有HTML的「內容」值。我使用XML::Simple::XMLin解析像這樣的文件:當我使用Data::Dumper
轉儲哈希Perl的XML :: Simple如何忽略嵌入在XML中的HTML?
$xml= eval { $data->XMLin($xmldata, forcearray => 1, suppressempty=> +'') };
,我發現SimpleXML
是解析HTML到哈希樹:
'content' => { 'div' => [ { 'xmlns' => 'http://www.w3.org/1999/xhtml', 'p' => [ { 'a' => [ { 'href' => 'http://miamiherald.typepad.com/.a/6a00d83451b26169e20133ec6f4491970b-pi', 'style' => 'FLOAT: left', 'img' => [ etc.....
這不是我想要的是。我想只抓住這個條目中的內容。我該怎麼做呢?
原始XML的外觀如何? 「CDATA」部分是HTML嗎? – friedo 2010-04-14 20:26:37
爲什麼正在使用'XML :: Simple'? – 2010-04-15 00:36:51
@Sinan - 是否XML :: LibXML或XML :: Parser包含一些奇特的鉤子,允許手動處理內容爲CDATA? – DVK 2010-04-15 05:38:39