2011-11-18 59 views
3

我想解析大型HTML文檔並從中提取信息,這樣我就可以用我想要的數據創建JSON文檔。我目前正在使用Nokogiri :: HTML :: SAX :: Parser來解析HTML文檔,並且它工作得很好;但爲了加快速度,我想使用更接近Nokogiri::XML::SAX::PushParser的東西,以便在下載HTML文檔時開始解析。是否可以使用Nokogiri創建HTML推送解析器?

I've tried playing around與Nokogiri在PushParser中拋出一個HTML SAX解析器,但它一直給我語法錯誤,因爲它仍將輸入文檔視爲XML。可能有一個很好的理由,你爲什麼不能使用HTML的推式解析器方法,因爲標籤格式不正確等等,但我想知道是否有一種方法將Nokogiri的PushParser與HTML文檔一起使用?

+1

我不相信這是可能的與Nokogiri。 (發表評論而不是回答,因爲我不確定。) – Phrogz

回答

0

2011年12月,Nokogiri新增了HTML Push Parser。所以我想這回答了這個問題是否可能。