假設我在該文件夾中有一組文本.html文件。使用CMD或JavaScript批量查找和刪除HTML文件的部分
我需要處理每個文件並刪除特定HTML標記的內容,包括標記本身。處理後必須重寫文件。
例子:
- 刪除所有
<script>
塊 - 刪除所有
<div class="test-class">
塊包括內部內容
正則表達式的工具,如sed -i -e 's/REGEX//g' *.html
不利於HTML處理。所以我正在尋找解決方案,主要基於例如在XPATH上的HTML解析,如//script
,//div[@class="test-class"]
。
完成此操作的最佳方法是什麼?
我建議使用XML/HTML解析器(xmlstarlet,xmllint ...)。 – Cyrus
如果你[編輯]你的問題包括一個簡明,可測試的樣本輸入和預期輸出的例子,那麼我希望你能得到幫助。 –