在lxml中對錶格進行分類

我正在處理大量的html文檔。我的任務之一是從文檔中提取所有文本。我已經得到了很多，但現在我因爲使用表格作爲容器/格式化結構來獲得非數字性質的信息而難住了在lxml中對錶格進行分類

我的目標是忽略 - 留下 - 不提取'表'是一個數字字段表

我準備實施基於暴力規則的方法，通過獲取一個表，並且如果超過一定比例的td.text_content（）可以分類爲數字，我將決定該表是一張數值表

我想知道如果別人可以建議更好的方法

2010-09-04 PyNEwbie

定義「數字字段表」 - 所有字段都包含數字？大多數字段可以通過int（）來解析？ ...？ – delnan 2010-09-04 18:37:37

是不確定是否大多數（（> 50％）是正確的閾值，但基本上是 – PyNEwbie 2010-09-04 19:20:53

我會建議上下文數據解析，例如由IBM's Watson執行，但我想否則不可能對錶進行分類。你能發表一個數字和非數字表格的html例子嗎？我會在發佈後更新我的答案。

2011-08-04 05:15:27

回答