2017-01-23 71 views
0

我知道,它可以提取所有的一個標籤一個HTML頁面:美麗的湯解析標籤不一致的HREF

mydivs = soup.findAll("a") 

但如果我只是想有這種格式的標籤:

<a href="/experiments/ENCSR7EADCH/"> 
<a href="/experiments/ENCSR77RTSA/"> 
<a href="/experiments/ENCSR75YUDJ/"> 
<a href="/experiments/ENCSR779CZG/"> 

我想:

mydivs = soup.findAll("a", { "href" : "/experiments/ENCSR*" }) 

但這返回一個空列表....

任何提示?

回答

0

regular expression

import re 
mydivs = soup.findAll("a", href=re.compile(r"/experiments/ENCSR")) 

CSS Selector

mydivs = soup.select('a[href^="/experiments/ENCSR"]')