我是新來的Python和美麗的湯也!我聽說過BS。它被告知是解析和提取內容的好工具。所以在這裏我是...:美麗的湯[Python]和表中的文字提取
我想採取HTML 文件中表的第一個td的內容。例如,我有這張桌子
<table class="bp_ergebnis_tab_info">
<tr>
<td>
This is a sample text
</td>
<td>
This is the second sample text
</td>
</tr>
</table>
我怎樣才能使用beautifulsoup採取文本「這是一個示例文本」? 我使用soup.findAll('table',attrs = {'class':'bp_ergebnis_tab_info'})獲取整個表的 。
謝謝...或者我應該嘗試使用Perl獲得整個東西...我不太熟悉。另一個解決方案將是PHP中的正則表達式。
參閱目標[1]:http://www.schulministerium.nrw.de/BP/SchuleSuchen?action=799.601437941842&SchulAdresseMapDO=142323
注;因爲html有點無效 - 我認爲我們必須做一些清理工作。這可能會導致很多PHP代碼 - 因爲我們想在PHP中解決這個問題。 Perl也是一個很好的解決方案。
一些提示和想法的出發點非常感謝 零
很明顯,你沒有從你的Perl問題中得到太多東西,所以我甚至不知道爲什麼這個問題是用Perl標記的。此外,請勿每幾周創建一個新帳戶:創建一個並堅持使用它。 @zero知道我在說什麼。其他人可以看看http:// stackoverflow。com/users/477580/thebutcher和http://stackoverflow.com/q/3991571/100754以及從那裏鏈接的問題。 – 2010-12-11 13:44:20