2010-09-04 82 views
0

我正在處理大量的html文檔。我的任務之一是從文檔中提取所有文本。我已經得到了很多,但現在我因爲使用​​表格作爲容器/格式化結構來獲得非數字性質的信息而難住了在lxml中對錶格進行分類

我的目標是忽略 - 留下 - 不提取'表'是一個數字字段表

我準備實施基於暴力規則的方法,通過獲取一個表,並且如果超過一定比例的td.text_content()可以分類爲數字,我將決定該表是一張數值表

我想知道如果別人可以建議更好的方法

+2

定義「數字字段表」 - 所有字段都包含數字?大多數字段可以通過int()來解析? ...? – delnan 2010-09-04 18:37:37

+0

是不確定是否大多數((> 50%)是正確的閾值,但基本上是 – PyNEwbie 2010-09-04 19:20:53

回答

0

我會建議上下文數據解析,例如由IBM's Watson執行,但我想否則不可能對錶進行分類。你能發表一個數字和非數字表格的html例子嗎?我會在發佈後更新我的答案。