2013-02-23 86 views
0

說我有一個字符串看起來像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>使用Python重新擺脫鏈接

如何使用re擺脫鏈接並只獲得Boston–Cambridge–Quincy, MA–NH MSA一部分?

我試過類似match = re.search(r'<.+>(\w+)<.+>', name_tmp)但不工作。

回答

3
re.sub('<a[^>]+>(.*?)</a>', '\\1', text) 

請注意,解析HTML通常是rather dangerous。但是,您似乎在解析MediaWiki生成的鏈接,並認爲鏈接總是相似的格式,因此您應該對該正則表達式應該沒問題。