我有HTML表格的文檔。有些單元格只有數字。其他單元格包含數字和單詞。如何從HTML表格中提取僅文本並忽略標記?
有什麼辦法只保留含單詞的單元格的內容,而不能只保留單元格的內容?
有沒有一個模塊,任何人都知道我可以用它來做到這一點?或者,有無論如何我可以使用正則表達式?
<table>
<tr>
<td>WORDS WORDS WORDS WORDS WORDS WORDS 123</td>
<td> 789</td>
</tr>
<tr>
<td> 123 </td>
<td>WORDS WORDS</td>
</tr>
</table>
我對Perl仍然很新,所以請原諒我的問題,如果它非常簡單。另外,我已經被警告過使用正則表達式解析HTML文本的潛在問題。
非常感謝!順便說一下,我將使用一個模塊來終止所有的HTML代碼。