1
我一直在嘗試使用Jericho HTML Parser和Selenium IDE來從多個頁面中的HTML內部特定位置提取文本。從多個頁面上的特定HTML位置提取文本
我還沒有找到一個簡單的例子,如何做到這一點,我不知道java。
我想一個文件夾中找到所有的HTML頁面在第1臺,第4行,第1格的任何文本字符串:
</table>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I don't want</div></td></tr>
<tr class="abc"><td class="xyz"><div align="center">The Text I want</div></td></tr>
</table>
並打印選定的文本到文本文件中像一個列表這樣的:
The Text I want
Another Text I want
所有源文件存儲在本地,並可能包含不良HTML,所以想通傑里科可能是最適合這個目的。不過,我很樂意學習任何方法來達到預期的效果。