在文本（XML）文件中查找重複部分的工具？

import xml.etree.ElementTree as ElementTree 
import sys 

def print_elem(element): 
    return "<%s>" % element.tag 

if len(sys.argv) != 2: 
    print >> sys.stderr, "Usage: %s filename" % sys.argv[0] 
    sys.exit(1) 
filename = sys.argv[1]  
tree = ElementTree.parse(filename) 
root = tree.getroot() 
chunks = {} 
iter = root.findall('.//*') 
for element in iter: 
    if element.text in chunks: 
     chunks[element.text].append(element) 
    else: 
     chunks[element.text] = [element,] 
for text in chunks: 
    if len(chunks[text]) > 1: 
     print "\"%s\" is a duplicate: found in %s" % \ 
       (text, map(print_elem, chunks[text]))

如果你給它這個XML文件：

<foo> 
<bar>Hop</bar><quiz>Gaw</quiz> 
<sub> 
<und>Hop</und> 
</sub>

它會輸出：

"Hop" is a duplicate: found in ['<bar>', '<und>']

來源

2009-01-23 16:33:24 bortzmeyer

這很酷，我很欣賞額外的努力！看起來這隻適用於根級節點，但是，不是嗎？ – duma 2009-03-12 15:12:06

A very similar question（在這一個問題後問了一年）用一些非常好的工具在同一個文件中區分塊，包括Atomiq。

來源

2016-07-21 19:38:41 tephyr

在文本（XML）文件中查找重複部分的工具？

回答

相關問題