2010-10-30 72 views
1

我已經成功地屏蔽了某些網站,但在今天某個網站上遇到了Nokogiri的一些非常奇怪的行爲。Nokogiri返回的HTML與實際的HTML源代碼不同

如果我查看Nokogiri在某些頁面上從網站上的實際HTML scource代碼拉下的HTML源代碼,它將被截斷。有些頁面工作得很好,所有數據都在那裏,其他的假髮都會被截斷。

www.bento.com/revj/0172.html(不工作 - 通過引入nokogiri返回截斷HTML) www.bento.com/revj/0101.html(工大)

scraped_jpage = Nokogiri::HTML(open(page_to_scrape) 
puts scraped_pagej 

我嘗試了各種不同的代碼,更改了編碼(UTF-8,SHIFT_JIS等),但我看不出任何Nokogiri截斷返回的HTML的原因。

這些網頁的英文版本都完美運作。

www.bento.com/rev/0172.html www.bento.com/rev/0101.html

任何幫助的感謝 - 希望這件事情很明顯我已經錯過了,而不是一個錯誤。

回答

1

因爲該源頁面具有不良的html結構。

嘗試打印結果錯誤:

puts scraped_jpage.errors