2012-02-23 68 views
-1

我有大約1000個本地存儲在磁盤上的頁面,其中包含類似於以下示例的內容。如何使用Python3.1從HTML頁面提取數據?

<html> 
<body> 
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li> 
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li> 
</body> 
</html> 

我需要幫助搞清楚如何提取字符串戴夫fromt 3號線和最多載入到用戶名列表。 此外,我需要從第四行提取00000001並將其加載到UserID列表中。

請幫幫忙,謝謝...

+0

我刪除了標籤「數據挖掘」。這裏沒有進行高級統計分析,只有「信息提取」。 – 2012-02-23 08:54:33

+0

[用Python 3解析HTML的最佳庫和示例?](http://stackoverflow.com/questions/2505041/best-library-to-parse-html-with-python-3-and-example) – 2012-02-23 12:34:48

+0

[lxml](http://lxml.de)也不錯。 – 2012-02-23 06:18:46

回答