2013-04-25 90 views
1

我是UIMA的新手。用於解析電子郵件的UIMA

我想開發一個應用程序,使用UIMA和uimaFIT可以解析與機票相關的任何電子郵件,例如確認電子郵件,取消電子郵件等,並從中提取有價值的信息,如票號,航班號,出發時間,到達時間,乘客姓名等。我如何使用uimaFIT實現此目的。目前我嘗試使用uimaFIT來讀取一個字符串,並用正則表達式試圖提取信息,但它似乎太複雜,因爲電子郵件沒有結構化。有關如何連接電子郵件並執行解析而不使用RegEx的任何建議。

有任何建議。

回答

1

您的電子郵件類型(確認電子郵件,取消電子郵件等)足夠小嗎?如果是,在第一步中,嘗試對電子郵件類型進行簡單分類。然後在接下來的步驟中,您可以根據電子郵件的類型應用不同的工具。

其餘的,我認爲最好使用正則表達式,即使它很乏味。您可能想要查看UIMA TextMarker以快速實現您的正則表達式/規則。

  • 票號:正則表達式
  • 航班號:正則表達式
  • 出發時間,到達時間:正則表達式
  • 旅客姓名:人NER(here一個UIMA例子)(或搭配電子郵件至:場? )