2010-01-01 55 views
1

我想從一個網站獲取一些信息。我想要的信息是在一個表格中,所以我做了一個正則表達式,但我不知道正確的方法來簡化它。重複正則表達式組

以下是我的正則表達式的兩個部分,我想簡化:

<br>(.*)<br>(.*)<br>(.*) 

<tr><td>(.+)r>(.+)r>(.+)r>(.+).+</td></tr> # This part should be repeated n times(n = 1 to 10) 

我通過Python文檔看,我無法知道如何做到這一點。也許你可以給我一個提示。

謝謝, mF。

+1

不要使用HTML的正則表達式!使用HTML解析器。 – 2010-01-01 20:06:26

回答

3

這是錯誤的路要走,除非你想湊一些數據從一個微小的片段。

如果您使用寬容的HTML,會更好。之前提到的BeautifulSoup是一個很好的,但它停滯不前,我不相信它正在積極維護。

Python強烈推薦的解析器是lxml

在我們的本地郵件列表here之一中,有一個討論解析XHTML的長話題,您可能會發現它也很有用。

1

,例如:以

(foo...){1,10} 

比賽1那裏面有10件事。鑑於你上面的例子,你可以窩那些:

((f..)(b..)){1,10}