嗨,我是nokogiri的新手,並嘗試使用各種樹結構來解析HTML文檔。任何關於如何解析它的建議都會很棒。我想要捕獲此頁面上的所有文字。使用nokogiri解析帶有嵌套循環的html樹
<div class = "main"> Title</div>
<div class = "subTopic">
<span = "highlight">Sub Topic</span>Stuff
</div>
<div class = "main"> Another Title</div>
<div class = "subTopic">
<span class = "highlight">Sub Topic Title I</span>Stuff<br>
<span class = "highlight">Sub Topic Title II</span>Stuff<br>
<span class = "highlight">Sub Topic Title III</span>Stuff<br>
</div>
我試過,但它只是推出每滿陣,我甚至不知道如何去的「東西」的一部分。
content = Nokogiri::HTML(open(@url))
content.css('div.main').each do |m|
puts m .text
content.css('div.subTopic').each do |s|
puts s.text
content.css('span.highlight').each do |h|
puts h.text
end
end
end
幫助將不勝感激。
有什麼特別的原因,你正在使用nokogiri做這個? – dezman 2013-03-14 04:32:13
我在Rails/Ruby中做這件事。有沒有其他工具可以建議? – haley 2013-03-14 04:35:37
根據你的情況,最好用JS做客戶端。 – 2013-03-14 04:45:34