我正在使用Nokogiri解析HTML頁面,但我遇到了非破壞性空間的奇怪問題。我嘗試了不同的編碼,取代了空格,還有一些其他的頭痛誘發嘗試。如何正確處理使用Nokogiri的不間斷空間?
這裏是有問題的HTML片段:
<td>Amount 15,300 at dollars</td>
注意的
表示改變我用引入nokogiri後:
<td>Amount 15,300 at dollars</td>
,並輸出inner_text
:
Amount 15,300 at dollars
這是我的基礎Nokogiri搶,我確實嘗試了幾個替代方案來解決,但慘敗:
doc = Nokogiri::HTML(open(url))
然後,我有問題的項目做一個doc.search
。
請注意,如果我看文檔,該行會顯示 
。
澄清:我認爲我沒有清楚地說明我遇到的困難。我不能讓inner_text
顯示沒有奇怪的Â
符號。
'' 相當於' '或'' 。問題不在於nokogiri。事實上,它正在做一個很好的規範化工作。顯示它是有問題的。你在瀏覽什麼瀏覽器? – sawa 2011-05-10 21:03:21
我認識到Nokogiri正在做它應該做的事情;我的問題是我試圖擺脫他們,但我所有的替換文字的嘗試都失敗了。這可能只是我試圖錯誤地使用它。我使用inner_text,然後只是輸出查看,沒有瀏覽器。 – Kraagenskul 2011-05-10 21:17:15
但是,您是不是使用瀏覽器查看(呈現的結果)視圖?你還能看到它嗎? – sawa 2011-05-10 21:39:45