2011-05-16 39 views
3

我試圖從www.crossfit.com基本檢索這塊文本。如何從網站搜索特定文本,通過谷歌應用引擎(python)檢索和使用它?


星期一110516

完整的多輪儘可能在五分鐘的:

275磅硬拉,3次重複實驗

115磅推按,7個代表


它基本上只是日期(星期一yymmdd)和一個worko的簡短描述UT。該網站每天更新一次新的鍛鍊。我想寫一個谷歌應用程序使用Python版本,將自動拉日常鍛鍊。我應該從哪裏開始?我跟着google的helloworld例子,這和我對html,python和google apps的瞭解差不多。

回答

2

而不是自己解析HTML,請使用已提供的XML提要:http://www.crossfit.com/index.xml

您可以使用xml.etree.ElementTree解析python 2.5中的XML提要。

+1

您也可以使用PubSubHubbub,而不是自己輪詢和解析它。 – 2011-05-17 03:55:10

+0

你也可以使用[feedparser](http://www.feedparser.org/) – systempuntoout 2011-05-17 10:39:30

+0

謝謝! feedparser很棒。我不得不閱讀XML和RSS飼料,我想我幾乎在那裏。從網站提供的xml中,每個「條目」往往是在句/ paragrapgh上的一個很長且奇怪的標點符號,有什麼方法可以提取鍛鍊說明,聲明數量,並省略其餘所有內容? – 1stsage 2011-05-17 18:55:38