2010-10-12 75 views
0

我有一些問題,以從HTML源提取一些數據。python beautifulsoup相關問題

以下是我的HTML源代碼的sniffit,我想提取每

字符串值以下

<td class="gamedate">10/12 00:59</b></td> 

<td class="gametype">오버언더</b></td> 

<td class="legue"><nobr style="width:100%;overflow:hidden;letter-spacing:-1;font-size:11px;"><nobr style='display:block; overflow:hidden;'><img src='../data/banner/25' border='0' width='20' height='13' alt='' align='absmiddle'></a> 그리스 D2</nobr> 

<td class="bet" id="team1_27771" class="homeTeam1">Pas Giannina (↑오버)</td> 

<td class="bet" id="bet1_27771" class="homeTeam2" align="right">1.65</td> 

<td class="pointer muSelect" id="chk_27771_3" num='27771' bet='2.5' sp='오버언더' bgcolor="f0f0f0" class="handy handy1" ><span id="bet3_27771">2.5</span></td> 

<td class="bet" id="bet2_27771" class="awayTeam2" align="left">1.95</td> 

<td class="bet" id="team2_27771" class="awayTeam1">Pierikos (↓언더)</td> 

,所以我想要的東西提取的最終值

10/12 00:59 

오버언더 

그리스 D2 

Pas Giannina (↑오버) 

1.65 

2.5 

1.95 

Pierikos (↓언더) 

以下是我的html完整源代碼

請幫助我!提前致謝!

因爲HTML源代碼是一些大的,所以我被上傳到pastebin.com

http://pastebin.com/Gdun0jhf

+0

它有點難以看到你的問題是什麼,你卡在哪裏? – Tim 2010-10-12 02:07:44

+1

也許你可以發佈到目前爲止你已經擁有的Python代碼? – Amber 2010-10-12 02:08:10

回答

1

爲什麼不只是做一個替換字符串

html.replace("AAAAAA", "Put what you want for AAAAAA here") 

,並做到這一點對所有的你想要取代的東西?

忽略,我想讀的問題,完全我的大腦一定不能在今天

+0

呃,OP沒有試圖取代東西,他們試圖獲得位於特定位置的值。他們手動將HTML代碼中的字母字符串作爲*示例*放入他們想要提取的內容中。 – Amber 2010-10-12 02:22:25

+0

我想這是OP想要的,很酷 – Zimm3r 2010-10-12 20:14:38

0

像這樣工作在一個基本表:

soup = BeautifulSoup.BeautifulSoup(YOUR_HTML) 
table = soup.find('TABLE_ID') 
for td in table.findAll('td'): 
    print td.string 

,但它看起來就像你正在處理的html有點混亂。所以也許最好是按照課堂名稱去追逐每一個TDs?例如

soup = BeautifulSoup.BeautifulSoup(YOUR_HTML) 

#game date 
game_dates = soup.findAll('td', {class: 'gamedate' }) 
for game_date in game_dates: 
    print game_date 

#bets 
bets = soup.findAll('td', {class: 'bet' }) 
for bet in bets: 
    print bet