如何使用Python3.1從HTML頁面提取數據？

2012-02-23 68 views -1 likes

-1

我有大約1000個本地存儲在磁盤上的頁面，其中包含類似於以下示例的內容。如何使用Python3.1從HTML頁面提取數據？

<html> 
<body> 
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li> 
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li> 
</body> 
</html>

我需要幫助搞清楚如何提取字符串戴夫fromt 3號線和最多載入到用戶名列表。此外，我需要從第四行提取00000001並將其加載到UserID列表中。

請幫幫忙，謝謝...

來源

2012-02-23 nebulus

我刪除了標籤「數據挖掘」。這裏沒有進行高級統計分析，只有「信息提取」。 – 2012-02-23 08:54:33

[用Python 3解析HTML的最佳庫和示例？]（http://stackoverflow.com/questions/2505041/best-library-to-parse-html-with-python-3-and-example） – 2012-02-23 12:34:48

[lxml]（http://lxml.de）也不錯。 – 2012-02-23 06:18:46

回答

查找到html.parser模塊（http://docs.python.org/py3k/library/html.parser.html#module-html.parser）。

來源

2012-02-23 02:38:34 pycoder112358

可以使用minidom命名解析XHTML/XML：

另外，Python有一個內置的HTMLParser：

http://docs.python.org/library/htmlparser.html

來源

2012-02-23 02:35:21

相關問題