2010-10-22 41 views
4

對於我來說,我無法理解實體處理的XML :: Twig文檔。如何以編程方式通過XML :: Twig添加實體聲明?

我得到了一些用HTML :: Tidy生成的XML。呼叫如下:

my $tidy = HTML::Tidy->new({ 
    'indent'   => 1, 
    'break-before-br' => 1, 
    'output-xhtml' => 0, 
    'output-xml'  => 1, 
    'char-encoding' => 'raw', 
}); 

$str = "foo   bar"; 
$xml = $tidy->clean("<xml>$str</xml>"); 

其產生:

<html> 
    <head> 
    <meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" /> 
    <title></title> 
    </head> 
    <body>foo &nbsp; bar</body> 
</html> 

XML ::嫩枝(理解)barfs在&nbsp;。我希望做一些變革,通過XML運行它::嫩枝:

my $twig = XML::Twig->new(
    twig_handlers => {... handlers ...} 
); 

$twig->parse($xml); 

$twig->parse線barfs上&nbsp;,但我無法弄清楚如何添加&nbsp;元素編程。我試過這樣的東西:

my $entity = XML::Twig::Entity->new("nbsp", "&#160;"); 
$twig->entity_list->add($entity); 
$twig->parse($xml); 

......但沒有喜悅。

請幫助=)

回答

3
use strict; 
use XML::Twig; 

my $doctype = '<?xml version="1.0" encoding="utf-8"?><!DOCTYPE html [<!ENTITY nbsp "&#160;">]>'; 
my $xml = '<html><head><meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" /><title></title></head><body>foo &nbsp; bar</body></html>'; 

my $xTwig = XML::Twig->new(); 

$xTwig->safe_parse($doctype . $xml) or die "Failure to parse XML : [email protected]"; 

print $xTwig->sprint(); 
+0

這非常接近我(理想)喜歡的東西。它仍然依賴於文本操作(在我的代碼中),而不是使用XML :: Twig API和文字數據,但我可以簡單地使用它來爲我的傳入數據聲明一個標準的DTD。 upvoted實用程序,它可能是被接受的答案(在我撥弄之後) – 2010-10-22 19:53:18

+0

我終於接受了這個作爲最好的答案。我最終做了一些稍微不同的事情,但仍然是文本處理。這可能是最好的通用解決方案。 – 2010-10-26 16:08:06

1

有可能是更好的辦法,但下面的代碼爲我工作:

my $filter = sub { 
    my $text = shift; 
    my $ascii = "\x{a0}"; # non breaking space 
    my $nbsp = '&nbsp;'; 
    $text =~ s/$ascii/$nbsp/; 
    return $text; 
}; 

XML::Twig->new(output_filter => $filter) 
     ->parse_html($xml) 
     ->print; 
+0

如果存在編程方法,我對使用regexp解析XML有點猶豫。如果我找不到一個更「正確」的方法來完成它,我會保留這個(謝謝)。 – 2010-10-22 19:50:46

5

髒,但效率高,技巧在這樣的情況下將添加一個僞造的DTD聲明。

然後解析的XML :: Parser將假定該實體在DTD中定義並且不會在該位置上禁用。

爲了擺脫僞造的DTD聲明,您可以輸出樹枝的根。如果您需要不同的聲明,請創建它並替換當前的聲明:

#!/usr/bin/perl 

use strict; 
use warnings; 

use XML::Twig; 

my $fake_dtd= '<!DOCTYPE head SYSTEM "foo"[]>'; # foo may not even exist 

my $xml='<html> 
    <head> 
    <meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" /> 
    <title></title> 
    </head> 
    <body>foo &nbsp; bar</body> 
</html>'; 

XML::Twig->new->parse($fake_dtd . $xml)->root->print; 
+0

嗯..謝謝。這實際上非常有幫助! – 2010-10-28 12:57:52

相關問題