2010-04-21 45 views
0

在文檔處理過程中,我想從html元數據中提取所有日期,然後確定將用於填充日期字段(dtgeneric1)的最新日期。使用間諜階段從FAST-ESP中的html元數據提取日期

<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" /> 
<meta name="LastModificationDate" content="2010/04/22 14:10:16" /> 
+ other non-date meta data 

檢驗表明,我們的管道已經增加了meta_ *屬性,但元數據的名稱將跨越不同來源的文件不同。

#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36 
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16 
+ other non-date meta attributes 

理想情況下,我們想通過所有meta_ *屬性爲Python階段,用它來計算出它們的日期,這是最大的,但似乎沒有指定「的所有元屬性」的方法作爲輸入。

有沒有人做過類似的事情,並可以提供任何建議,以最好的方式來做到這一點。

由於

尼爾

回答

0

我想,該取所有所需的日期的屬性作爲輸入自定義階段,處理所有之間的比較它們(以找到最新日期),並輸出的最最新的領域將完成這項工作。