如何使用SGMLParser中

2012-02-26 28 views 1 likes

提取HTML中指定的文本我創建一個類擴展SGMLParser這樣：如何使用SGMLParser中

class URLLister(SGMLParser): 

    def __init__(self): 
     SGMLParser.__init__(self) 

    def start_title(self, attrs): 
     pass 

    def handle_data(self, data): 
     print data

非常非常簡單的代碼。在遇到<title>標記時調用了IMO start_title，並且在遇到正常文本時調用了handle_data。現在我想提取<title>和</title>之間的文本，例如，

<html><head><title>Webpage title</title></head><body>Simple text</body></html>

我想打印標籤Webpage title之間<title>，但使用handle_data標籤我將輸出所有簡單的文本，包括Webpage title和Simple text。如何簡單地輸出<title>標籤之間的文字？

來源

2012-02-26 Searene

回答

真的，你可以只在handle_data添加一個硬編碼的檢查，像這樣：

def handle_data(self, data): 
    tag = self.get_starttag_text().replace("<","").replace(">","") 
    tag_words = tag.split(" ") 
    if len(tag_words) > 0 and tag_words[0].endswith("title"): 
     print data

我不知道如果這是你想要的究竟是什麼，我敢肯定有一個更優雅的答案。

來源

2012-02-26 04:58:16 chroipahtz

相關問題

1. （python）sgmlparser以及如何提取標籤之間的數據，而不是屬性/值
2. 如何使...如何使用Eval在ItemTemplate中使用Eval？
3. 如何使用其中使用python
4. 如何使用libcurl中
5. 如何使用Xcode中8
6. 如何使用JavaScript中
7. 如何使用R中
8. 如何使用= jQuery中
9. 如何在Jade中使用'＆'
10. 如何使用jQuery中
11. 如何在Elixir中使用
12. 如何使用中國
13. 如何在UNIX中使用
14. 如何在XPath中使用
15. 如何在Ruby中使用'？
16. 如何使用WCF中
17. 如何使用WinCvs中
18. 如何使用ID MongoDB中
19. 如何使用中風
20. chrome.storage中如何使用「namespaces」？
21. 如何使用JSP中
22. 如何使用JTable中
23. 如何使用CriteriaQuery中
24. 如何使用在mysql中
25. 如何使用GCM iOS中
26. 如何使用Python中
27. 如何使用CStatRelation Yii中
28. 我如何使用MySQL中
29. 如何使用&&在Flex中
30. 如何使用testthat R中