我想使用正則表達式來解析網站解析使用正則表達式網站在Python
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(有很多的這些,我想以某種形式的標記化所有的)。問題是「一個href」實際上有兩個空格,而不僅僅是一個(有一些是「href」,有一個空格,我不想檢索),所以使用LXML已經證明是相當痛苦的,而我不想使用BeautifulSoup(出於其他原因)。有誰知道我會怎麼做呢?
謝謝!
[RegEx match open tags not except XHTML self-contained tags]可能重複(http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – JBernardo 2013-02-15 02:45:44
沒有這個不同。從href中挑出兩個空間是困難的,而不是僅僅一個空間。對於它非常脆弱,我也很好,只要它確實符合我的要求,即提取出兩個空格之間的href。 – user1922956 2013-02-15 03:13:43
從另一個問題閱讀第一個答案 – JBernardo 2013-02-15 03:28:07