如何在Perl中修改HTML文件？

我有一堆HTML文件，我想要做的就是在每個HTML文件中查找關鍵字'From Argumbay'，然後使用我所擁有的一些href進行更改。我認爲它起初非常簡單，所以我做的是打開每個HTML文件並將其內容加載到一個數組（列表）中，然後查找每個關鍵字並將其替換爲s ///，並將內容轉儲到該文件，有什麼問題？有時關鍵字也可能出現在href中，在這種情況下，我不希望它被替換，或者它可能出現在某些標籤等內部。如何在Perl中修改HTML文件？

一個例子：http://www.astrosociety.org/education/surf.html

，我想我的腳本，以取代一些HREF，我在$ HREF字「這裏」的每一次出現，但正如你所看到的，還有另外一個「這裏」這已經被href，我不希望它再次這個href。在這種情況下，除了href之外，還有其他'這裏除了href，但讓我們假設有。

我想替換關鍵字只有當它只是文本，任何想法？

BOUUNTY編輯：嗨，我相信它是一個簡單的事情，但似乎它會刪除所有在HTML，SHTML文件中發現的評論（主要問題是它會清除SHTML中的SSI），我試過使用：store_comments 1）在調用遞歸函數之前在$ html上的方法，但無濟於事。任何想法我在這裏想念什麼？

來源

2010-10-10 snoofkin

沒有看到你的代碼，很難說出問題出在哪裏。 – Ether 2010-10-10 15:30:54

你可以給出示例HTML行嗎？ – Ruel 2010-10-10 15:34:00

我添加了一個例子。 – snoofkin 2010-10-10 18:18:04

要做到這一點與HTML::TreeBuilder，你會閱讀文件，修改樹，並寫出來（到同一文件，或不同的文件）。這是相當複雜的，因爲你試圖將文本節點的一部分轉換爲標籤，並且因爲你的評論無法移動。

用HTML樹中常見的成語是使用修改樹遞歸函數：

use strict; 
use warnings; 
use 5.008; 

use File::Slurp 'read_file'; 
use HTML::TreeBuilder; 

sub replace_keyword 
{ 
    my $elt = shift; 

    return if $elt->is_empty; 

    $elt->normalize_content;  # Make sure text is contiguous 

    my $content = $elt->content_array_ref; 

    for (my $i = 0; $i < @$content; ++$i) { 
    if (ref $content->[$i]) { 
     # It's a child element, process it recursively: 
     replace_keyword($content->[$i]) 
      unless $content->[$i]->tag eq 'a'; # Don't descend into <a> 
    } else { 
     # It's text: 
     if ($content->[$i] =~ /here/) { # your keyword or regexp here 
     $elt->splice_content(
      $i, 1, # Replace this text element with... 
      substr($content->[$i], 0, $-[0]), # the pre-match text 
      # A hyperlink with the keyword itself: 
      [ a => { href => 'http://example.com' }, 
      substr($content->[$i], $-[0], $+[0] - $-[0]) ], 
      substr($content->[$i], $+[0]) # the post-match text 
     ); 
     } # end if text contains keyword 
    } # end else text 
    } # end for $i in content index 
} # end replace_keyword 


my $content = read_file('foo.shtml'); 

# Wrap the SHTML fragment so the comments don't move: 
my $html = HTML::TreeBuilder->new; 
$html->store_comments(1); 
$html->parse("<html><body>$content</body></html>"); 

my $body = $html->look_down(qw(_tag body)); 
replace_keyword($body); 

# Now strip the wrapper to get the SHTML fragment back: 
$content = $body->as_HTML; 
$content =~ s!^<body>\n?!!; 
$content =~ s!</body>\s*\z!!; 

print STDOUT $content; # Replace STDOUT with a suitable filehandle

從as_HTML輸出將是語法正確的HTML，但不一定很好地格式化HTML供人觀看的來源。如果需要，可以使用HTML::PrettyPrinter寫出文件。

來源

2010-10-11 00:17:45 cjm

WOOOOOOOOOOOOOOOOOOOOOOOWOW！認真的人，你從哪裏來的？我不能要求更好的解決方案！驚人。它的工作原理非常完美，但是我不需要幾個小時就能理解你在那裏做了什麼（ - ：非常感謝！ – snoofkin 2010-10-11 08:39:34

我使用了HTML-Tree，而且'substr'表達式只是複製出了' @ -'，因爲使用'$＆'等會減慢你的程序的速度 – cjm 2010-10-11 16:19:22

你也可能會搜索其他的StackOverflow問題，它們會提出相同的問題（並且經常有相同的答案）HTML :: TreeBuilder在這裏頻繁出現。 – 2010-10-11 17:44:51

如果標籤在您的搜索和替換中很重要，則需要使用HTML::Parser。

這個tutorial比帶模塊的文檔更容易理解。

來源

2010-10-10 15:50:13

我可以使用HTML :: TreeBuilder嗎？我在問，因爲我從來沒有使用過任何一個。 – snoofkin 2010-10-10 15:58:29

@ soulSurfer2010，是的HTML :: TreeBuilder可以幫助你做到這一點。（它建立在HTML :: Parser之上。） – cjm 2010-10-10 16:07:50

@ soulSurfer2010是的，它看起來也會起作用。我所做的真正的一點是，你需要真正解析HTML，而不僅僅是將正則表達式應用到源代碼中，這正是我猜測你正在做什麼的基礎上你提供的什麼小信息。 – 2010-10-10 16:09:33

如果你想去一個正則表達式，只有類型的方法，你就準備接受下列限制性條款：

這不會在HTML中正常工作的意見
這是不行的地方所述<或>字符用來標記
內其中使用<或>字符，而不是標籤
這將無法工作的一部分，這將不起作用，其中一個標記跨越米（如果您一次只處理一行）

如果上述任何條件確實存在，那麼您將不得不使用其他答案中概述的HTML/XML解析策略之一。

否則：

my $searchfor = "From Argumbay"; 
my $replacewith = "<a href='http://google.com/?s=Argumbay'>From_Argumbay</a>"; 

1 while $html =~ s/ 
    \A    # beginning of string 
    (    # group all non-searchfor text 
    (   # sub group non-tag followed by tag 
     [^<]*?  # non-tags (non-greedy) 
     <[^>]*> # whole tags 
    )*?   # zero or more (non-greedy) 
) 
    \Q$searchfor\E # search text 
/$1$replacewith/sx;

注意，如果$searchfor比賽$replacetext（所以不要把「從Argumbay」回替換文本），這是不行的。

來源

2010-10-11 08:08:41

今天訪問本網站之前，我已經提出了一些類似的解決方案，但我不能接受這些規定，謝謝！ – snoofkin 2010-10-11 08:40:28

如何在Perl中修改HTML文件？

回答

相關問題