1
提取HTML中指定的文本我創建一個類擴展SGMLParser這樣:如何使用SGMLParser中
class URLLister(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
def start_title(self, attrs):
pass
def handle_data(self, data):
print data
非常非常簡單的代碼。在遇到<title>
標記時調用了IMO start_title
,並且在遇到正常文本時調用了handle_data
。現在我想提取<title>
和</title>
之間的文本,例如,
<html><head><title>Webpage title</title></head><body>Simple text</body></html>
我想打印標籤Webpage title
之間<title>
,但使用handle_data
標籤我將輸出所有簡單的文本,包括Webpage title
和Simple text
。如何簡單地輸出<title>
標籤之間的文字?