我想解析HTML,獲取文本,並返回每個單詞(或潛在的每個文本片段)附帶的標籤列表。 例如,給定這個HTML:Python用標籤列表解析HTML返回單詞
<em>Blah blah blah</em> blah again <i>and then again</i>
這將返回類似:
(("Blah", "em"),
("blah", "em"),
("blah", "em"),
("blah", ""),
("again", ""),
("and", "i"),
("then", "i"),
("again", "i"))
或:
(("Blah blah blah", "em"),
("blah again", ""),
("and then again", "i"))
是否有工具或一個簡單的方法來做到這一點?
感謝
我不確定這會有所幫助。我想將這些單詞與造型標籤一起提取出來。 –