0
在文檔處理過程中,我想從html元數據中提取所有日期,然後確定將用於填充日期字段(dtgeneric1)的最新日期。使用間諜階段從FAST-ESP中的html元數據提取日期
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data
檢驗表明,我們的管道已經增加了meta_ *屬性,但元數據的名稱將跨越不同來源的文件不同。
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes
理想情況下,我們想通過所有meta_ *屬性爲Python階段,用它來計算出它們的日期,這是最大的,但似乎沒有指定「的所有元屬性」的方法作爲輸入。
有沒有人做過類似的事情,並可以提供任何建議,以最好的方式來做到這一點。
由於
尼爾