Nokogiri返回的HTML與實際的HTML源代碼不同

我已經成功地屏蔽了某些網站，但在今天某個網站上遇到了Nokogiri的一些非常奇怪的行爲。Nokogiri返回的HTML與實際的HTML源代碼不同

如果我查看Nokogiri在某些頁面上從網站上的實際HTML scource代碼拉下的HTML源代碼，它將被截斷。有些頁面工作得很好，所有數據都在那裏，其他的假髮都會被截斷。

www.bento.com/revj/0172.html（不工作 - 通過引入nokogiri返回截斷HTML） www.bento.com/revj/0101.html（工大）

scraped_jpage = Nokogiri::HTML(open(page_to_scrape) 
puts scraped_pagej

我嘗試了各種不同的代碼，更改了編碼（UTF-8，SHIFT_JIS等），但我看不出任何Nokogiri截斷返回的HTML的原因。

這些網頁的英文版本都完美運作。

www.bento.com/rev/0172.html www.bento.com/rev/0101.html

任何幫助的感謝 - 希望這件事情很明顯我已經錯過了，而不是一個錯誤。

2010-10-30 rollbahn

因爲該源頁面具有不良的html結構。

嘗試打印結果錯誤：

puts scraped_jpage.errors

2010-11-21 08:05:06 huacnlee

回答