我檢索來自cnn.com網站上最新的新聞報道,並寫了一個簡單的腳本引入nokogiri做到這一點:解析Nokogiri時消除CSS選擇器?
url = "http://edition.cnn.com/?refresh=1"
doc = Nokogiri::HTML(open(url))
puts doc.at_css("title").text
doc.css("#cnn_maintt2bul div+ div a").each do |headline|
article = headline.text
puts "#{article}"
end
的問題是,CNN職位的文章和視頻鏈接的混合物。現在我只對文章而不是視頻感興趣。例如,當我運行此腳本時,它將檢索所有文章,但在文章鏈接到視頻時留下空間。
Pakistan airstrikes kill dozens
Could U.S. leave Afghanistan?
Editor's stabbing draws outrage
Ukrainian city fears uprising
U.S. hate groups in decline
這意味着Ukrainian city fears uprising
實際上會鏈接到視頻。它會這樣做,直到它檢索到最後一篇文章。
我發現文章有一個名爲.cnnVideoIcon
的選擇器。有關我如何消除這種情況的任何想法,從而將鏈接到視頻的文章從我的結果中刪除?
如何在解析時消除這些鏈接?它們可能出現在任
你能提供一個鏈接到你刮網站? – Severin