2010-01-02 127 views
1

我的任務是獲取所有SMS updates from this page並將它們放入使用Yahoo Pipes的JSON供稿中。我不完全確定我將如何獲得每一次更新,因爲它們不是單獨的元素,而只是標題的集合等。任何共同的智慧都將非常感謝!將HTML解析爲JSON

回答

2
<h1 id="blogtitle">SMS Update</h1> 
<div class="blogposttime blogdetail">Left at 2nd January 2010 at 01:12</div> 
<div class="blogcategories blogdetail">Recieved by SMS (Location: Pokhara - Nepal)</div> 
<p class="blogpostmessage"> 
RACE DAY! We took the extra day off to pimp the rick some more, including a huge Australian flag. Quiet night at a pub with 6 other teams. Time for brekkie and then we're off to the rickshaw grounds for 8:30 for 10am start. 
</p> 

這似乎是一個非常容易的DOM/XML解析器的工作。

由於塊未包含在XML標籤中,因此可以查找每個塊中存在的元素,例如<h1 id="blogtitle">SMS Update</h1>定義了新塊的開始。

使用您的DOM解析器查找所有編號爲的博客文章。此時,您可以使用DOM功能來引用博客文章元素的nextSibling。所有你需要的是博客標題元素之後的兄弟姐妹。

通過一些工作,您可以輕鬆使用此邏輯來構建您的JSON對象。

+0

謝謝,但我通過查找頁面上的所有blogtitle元素以及posttime等來「解決」這個問題,並且使用Nokogiri(Ruby)迭代它們,因爲它們總是處於正確的順序。似乎正在游泳。不過,謝謝你的回答。 – 2010-01-02 07:47:34