如何在Ruby中解析XML標記時獲取所有內容的總和？

我有一些XHTML（但實際上任何XML會做）這樣的：如何在Ruby中解析XML標記時獲取所有內容的總和？

<h1> 
    Hello<span class='punctuation'>,</span> 
    <span class='noun'>World<span class='punctuation'>!</span> 
</h1>

如何獲得<h1/>的全部內容在Ruby中的字符串？如：

assert_equal "Hello, World!", h1_node.some_method_that_aggregates_all_content

做任何的XML框架（Nokogiri，libxml-ruby，&角）有這種事情內置的？如果不是這樣，我覺得像Y-Combinator可能是適合這項工作的正確工具，但我無法弄清楚它會是什麼樣子。

來源

2009-06-04 James A. Rosen

與Nokogiri，你可以問一個節點的text。但是，我這樣做時遇到的問題是，該節點中的所有空白和換行符都將被返回，因此您可能需要刪除這些內容（可能是比我爲此示例做的更好的方法）。

這裏有一個例子：

def test_nokogiri_text 
    value = Nokogiri::HTML.parse(<<-HTML_END) 
    "<h1> 
     Hello<span class='punctuation'>,</span> 
     <span class='noun'>World<span class='punctuation'>!</span> 
    </h1>" 
    HTML_END 

    h1_node = value.search("h1").first 
    assert_equal("Hello, World!", h1_node.text.split(/\s+/).join(' ').strip) 
end

來源

2009-06-04 15:54:48

如果我將要開啓所有的換行到反正空間（這是完全正常的，因爲XML將它們視爲等價物），那麼h1_note.text.gsub（/ \ s + /，''）.strip的工作原理相同，速度稍快，因爲它不需要創建許多新對象。 – 2009-06-04 17:19:52

引入nokogiri的Nokogiri::XML::Node#content將做到這一點：

irb(main):020:0> node 
=> <h1> 
    Hello<span class="punctuation">,</span> 
    <span class="noun">World<span class="punctuation">!</span> 
</span> 
</h1> 
irb(main):021:0> node.content 
=> "\n Hello,\n World!\n\n"

來源

2009-06-04 15:58:17 Pesto

#text和#content是一樣的，所以Aaron得到了「答案」B/C他也照顧了空白。 +1，雖然:) – 2009-06-04 17:16:44

如何在Ruby中解析XML標記時獲取所有內容的總和？

回答

相關問題