或多或少在評論中討論:
使源字符串和搜索字符串的副本。消除兩個副本中的所有控制字符。在源字符串的副本中搜索搜索字符串的副本。如果您需要(或強調刪除,或...),您也可以進行大小寫轉換。使用大量的\s*
可能會顯着減慢你的正則表達式。
搜索字符串只需要被複制和預處理一次。每個源字符串也需要被複制和預處理一次。如果最糟糕的是,當你知道有匹配的時候,你可以返回到原始的源字符串,並創建一個新的搜索字符串副本,這樣你就可以在每個常規字符之間找到類似\s*
的東西,並應用從搜索字符串的第二個(殘缺的)副本到原始源字符串的正則表達式。因爲你知道有匹配,所以即使匹配失敗模式太慢,性能也應該是合理的。
下面是討論的思想的Perl實現。
#!/usr/bin/env perl
use strict;
use warnings;
use Data::Dumper;
$Data::Dumper::Useqq = 1;
my $source = "'Twas (Tweedle-Dee's)\fBirthday\n\n\f\f\nand\ta\tl\tl\this friends were happy\n";
my $search = "(\fTwee\ndle\t-\tDee\r'\rs)\nBi\frth\fday";
print Data::Dumper->Dump([$source], [qw($source)]);
print Data::Dumper->Dump([$search], [qw($search)]);
my $c_source = $source;
my $c_search = $search;
$c_source =~ s/ |[[:cntrl:]]//g; # Or s/\s//g;
$c_search =~ s/ |[[:cntrl:]]//g; # Or s/\s//g;
print Data::Dumper->Dump([$c_source], [qw($c_source)]);
print Data::Dumper->Dump([$c_search], [qw($c_search)]);
if ($c_source =~ m/\Q$c_search\E/)
{
# Locating the search in the original source...hard work...
my @a_search = split //, $c_search;
printf "Lengths: c_search %d; a_search %d\n", length($c_search), scalar(@a_search);
@a_search = map { s/[][\\.*?+(){}]/\\$&/g; $_ } @a_search; # Escape regex metacharacters
#print Data::Dumper->Dump([\@a_search], [qw(@a_search)]);
my $r_search = join "\\s*", @a_search;
print Data::Dumper->Dump([$r_search], [qw($r_search)]);
my $t_source = $source;
$t_source =~ s/$r_search//g;
print Data::Dumper->Dump([$t_source], [qw($t_source)]);
}
好乾淨的象形文字的樂趣 - 清晰如泥,毫無疑問。前三行檢查是否沒有任何愚蠢的錯誤。 Data::Dumper
模塊明確地打印數據;它在那裏進行調試。變量Useqq
調整數據的打印方式。
變量$source
和$search
是源字符串和搜索字符串。儘管所有控制角色都在其中,但還是有匹配的。請注意,混合中有一些正則表達式元字符 - 圓括號是正則表達式元字符。這些字符串被轉儲以供參考。
接下來的兩行創建搜索和源字符串的副本。控制字符和空格被刪除,使用基於POSIX的正則表達式類指定所有控制字符。這些轉換後的字符串被轉儲以供檢查。
if
語句將轉換的源與轉換的搜索進行比較。 \Q...\E
部分在兩者之間壓制正則表達式元字符的含義。如果有匹配,那麼我們在花括號中輸入代碼塊。
split
操作從轉換後的搜索字符串中創建單個字符數組。 printf
檢查智慧。 map
操作會用反斜槓和元字符替換每個正則表達式元字符,並保持其他字符不變。 join
將數組@a_search
中的每個字符或字符對收集爲一個字符串$r_search
與\s*
分隔數組條目。
變量$t_source
是源的另一個副本。 $r_search
的正則表達式應用於$t_search
,任何匹配都被替換爲無。結果被傾倒。從這個腳本的輸出是:
字符串$t_source
確實對應$source
與「(特威德爾-Dee的)生日」去除,這似乎符合要求。
把這個轉換成Ruby是對感興趣的讀者的自虐感的一個練習。顯然,您可以簡單地創建並使用$r_search
字符串作爲正則表達式,並將其直接應用於(副本)$source
;它會工作。但是我深信,如果將它應用於千字節長度的源字符串,代碼將運行得非常緩慢。我還沒有做過測量來證明它。
製作源字符串和搜索字符串的副本。消除兩個副本中的所有控制字符。在源字符串的副本中搜索搜索字符串的副本。如果您需要(或強調刪除,或...),您也可以進行大小寫轉換。使用大量'\ s *'可能會大大減慢你的正則表達式。 – 2013-03-20 00:01:47
@Jonathan Leffler但是,你如何重做原始字符串上的替換? – Patashu 2013-03-20 00:02:30
搜索字符串只需要被複制和預處理一次。源字符串需要每次都被複制和預處理。如果最壞的情況出現了,當你知道有匹配的時候,你可以回到原始的源字符串,並且創建一個新的搜索字符串副本,以便在每個常規字符之間有's * *' ,並將第二個(殘缺的)搜索字符串副本中的正則表達式應用於原始源字符串。因爲你知道有匹配,所以即使匹配失敗模式太慢,性能也應該是合理的。 – 2013-03-20 00:08:26