斯坦福CoreNLP不適用於許多常見的歐洲日期格式(c.f. Date and time notation in Europe (Wikipedia))。修復CoreNLP與歐洲日期分割的句子
我們都知道日期解析是一團糟,尤其是crazy mm-dd-yyyy format the U.S. uses。儘管如此,CoreNLP甚至無法處理基本的歐洲日期格式,因爲它在點上過分分裂。
然而,日期信息通常呈現在例如如:
模具Terroranschläge是2001年11月,einem Dienstag,瓦倫koordinierteFlugzeugentführungenMITanschließendenSelbstmordattentaten ... (Wikipedia)
無論我嘗試,CoreNLP分裂VIER到這一點:
1. Die Terroranschläge am 11.
2. September 2001, einem Dienstag, waren vier [...]
使CoreNLP在很大程度上無法用於德語NLP。點簡單地將其標記爲序數,即這是德語寫作「2001年9月11日」的方式。 CoreNLP認爲9.
是另一句話,也是「2001年9月11日」
是否有任何鉤子(例如,重寫某種方法)可以允許我定義模式來重新連接錯誤地將句子與自己的規則分開?例如,[123]?\d\. 1?\d\.
將是典型的日期,並且沒有太多的月...
嗨我會努力讓它重新啓動! – StanfordNLPHelp
您可以簡單地使用這種模式從輸入字符串中刪除點。但是這是一個黑客。 –
我正在嘗試這樣的事情 - 現在用空格替換它們,以保持字符偏移不動。但是,如果CoreNLP支持這一點,那將會更好。 –