我有大約1000個本地存儲在磁盤上的頁面,其中包含類似於以下示例的內容。如何使用Python3.1從HTML頁面提取數據?
<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>
我需要幫助搞清楚如何提取字符串戴夫fromt 3號線和最多載入到用戶名列表。 此外,我需要從第四行提取00000001並將其加載到UserID列表中。
請幫幫忙,謝謝...
我刪除了標籤「數據挖掘」。這裏沒有進行高級統計分析,只有「信息提取」。 – 2012-02-23 08:54:33
[用Python 3解析HTML的最佳庫和示例?](http://stackoverflow.com/questions/2505041/best-library-to-parse-html-with-python-3-and-example) – 2012-02-23 12:34:48
[lxml](http://lxml.de)也不錯。 – 2012-02-23 06:18:46