我是第一次在這裏嘗試獲取一些Python技能的海報;請對我友好:-)如何循環遍歷Python中的html表格數據集
雖然我對編程概念並不陌生(我之前一直在搞PHP),但對Python的過渡對我來說變得有點困難。我想這主要是因爲我缺乏大部分 - 如果不是全部 - 對普通「設計模式」(?)等的基本理解。
說了這麼多,就是這個問題。我目前的一部分工作是利用美麗的湯來寫一個簡單的刮板。要處理的數據與下面列出的數據具有相似的結構。
<table>
<tr>
<td class="date">2011-01-01</td>
</tr>
<tr class="item">
<td class="headline">Headline</td>
<td class="link"><a href="#">Link</a></td>
</tr>
<tr class="item">
<td class="headline">Headline</td>
<td class="link"><a href="#">Link</a></td>
</tr>
<tr>
<td class="date">2011-01-02</td>
</tr>
<tr class="item">
<td class="headline">Headline</td>
<td class="link"><a href="#">Link</a></td>
</tr>
<tr class="item">
<td class="headline">Headline</td>
<td class="link"><a href="#">Link</a></td>
</tr>
</table>
的主要問題是,我根本不能讓我圍繞着如何1)保持當前的日期(TR-> TD類=「日期」的軌跡),而2頭)循環遍歷項目後續的tr:s(tr class =「item」 - > td class =「headline」和tr class =「item」 - > td class =「link」)以及3)將處理後的數據存儲在一個數組中。
此外,所有數據將被插入數據庫,其中每個條目必須包含以下信息;
- 日期
- 標題
- 鏈接
注意污物:荷蘭國際集團的數據庫不是問題的一部分,我只是爲了更好地說明什麼,我想提到這個在這裏完成:-)
現在,有很多不同的方法來皮膚貓。因此,雖然解決手頭問題的方法確實非常受歡迎,但如果有人願意詳細闡述爲了「攻擊」這類問題而使用的實際邏輯和策略,我將非常感激:-)
最後但並非最不重要的是,對於這樣一個不好的問題抱歉。
嗨,休,我決定和你的建議一起去做,結果非常好。謝謝你的努力! :-) – Mattias 2011-01-08 03:00:20