我想要做的是解析原始自然文本並找到描述日期的所有短語。如何在自然文本中查找對日期的引用?
我有一個相當大的語料庫與所有引用標記的日期:
I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
我不想解釋日期短語,只是找到它們。它們是日期的事實是無關緊要的(在現實生活中,它們不是日期,但我不想讓你知道細節),基本上它只是一組開放式的可能值。這些值本身的語法可以近似爲上下文無關,但手動構建相當複雜,而且越來越複雜,越來越難以避免誤報。
我知道這是一個很遠的鏡頭,所以我並不期望在那裏存在一個開箱即用的解決方案,但是我可能使用哪些技術或研究?
查看問題http://stackoverflow.com/questions/9294926/how-does-apple-find-dates-times-and-addresses-in-emails。這被稱爲命名實體提取,作爲信息提取中的子任務。 @reseter提供了鏈接。機器學習和基於語法的方法都能很好地工作。 – 2012-03-13 13:42:47
看看https://duckling.wit.ai/ – sdream 2016-07-23 10:23:25
@sdream謝謝,這看起來很有希望,我會試一試。 – biziclop 2016-07-23 10:42:00