2013-03-24 82 views
-1

我有一個文件頁面的源代碼,但這裏只有頁面,我需要,這是包含在該類別中的一小部分:刪除一切

<td class="left"> 
<a href="hiscorepersonal.ws?user1=xMorgan">xMorgan</a> 
<br><a href="hiscorepersonal.ws?user1=unik4kosova">unik4kosova</a> 
<br><a href="hiscorepersonal.ws?user1=MiscDemeanor">MiscDemeanor</a> 
<br> 
</td> 

據我瞭解,有沒有簡單的方法來做到這一點,因爲它不包含在一個元素中。這仍然是可能的嗎?

+0

沒有源代碼顯示你做了什麼,我不能肯定地說,但我可以說你沒有使用Nokogiri來下載頁面,因爲Nokogiri不這樣做。可能你使用OpenURI來「打開」並讀取文件。如果涉及到Nokogiri,它很可能不需要像解析器一樣,因此解析然後轉換爲文本以保存將會浪費運動。 – 2013-03-27 16:06:09

回答

1

給定輸入的預期輸出是多少?難道是這樣的:

"\nxMorgan\nunik4kosova\nMiscDemeanor\n" 

如果這是你想要的,你可以寫:

​​

如果這不是你想要的,請提供足夠的HTML樣品和所需的輸出。

+0

感謝您的回覆 - 給定輸入的預期輸出爲:xMorgan到xMorgan,即剝離標籤的文本字段以外的所有內容。 – user1646130 2013-03-24 13:53:01

+1

然後這就是你想要的,你可以試試看。或者也許'doc.css('td.left a')。map {| a | a.text}' – 2013-03-24 14:04:43

+0

您最初發布的內容絕對精彩 - 非常感謝!我唯一的疑慮就是它在我寫到的文件中留下了一行空行:class doc = Nokogiri :: HTML(open(「Datafiles/Input.txt」)) outFile = File.new(「Output。 txt「,」w「) outFile.puts doc.css('td.left').text – user1646130 2013-03-24 16:32:35