我的讀取與BeautifulSoup一些HTML錶行這段代碼:選擇特定<tr>標籤與BeautifulSoup
from bs4 import BeautifulSoup
import urllib2
import re
page = urllib2.urlopen('www.something.bla')
soup = BeautifulSoup(page)
rows = soup.findAll('tr', attrs={'class': re.compile('class1.*')})
這是我得到的結果:
<tr class="class1 class2 class3">...</tr>
<tr class="class1 class2 class3">...</tr>
<tr class="class1 class5">...</tr>
<tr class="class1_a class5_a">...</tr>
<tr class="class1 class5">...</tr>
<tr class="class1_a class5_a">...</tr>
<!-- etc. -->
然而,我'想排除(或不首先選擇它們)那些具有class1 class2 class3
作爲屬性的行。
我該怎麼做?
感謝您的幫助!
那麼'class1_a'可以抓取而不是'class1'嗎? – serk 2012-02-12 23:24:24
我應該抓住所有以'class1 *'開頭但沒有'class2 class3'的人...... – errata 2012-02-12 23:25:58