我有一套具有半正規格式的文檔。行通常由換行符分隔,每行的主要組成部分由空格分隔。一些例子是一套傢俱裝配說明,一套目錄,一套配方和一套銀行對賬單。解析半結構化數據 - 我可以使用任何分類器嗎?
問題在於,每組中的每個樣本與其同級成員的不同之處在於使RegEx解析不可行:項目的數量可能在項目名稱之前或之後出現,相同的項目在樣本之間可能有不同的名稱,行之間可能存在說明文字或註釋等。
我已經使用了分類器(Neural Nets,Bayesian,GA和GP)來處理整個文檔或數據集,但不是從文檔中提取項目並對它們進行分類在上下文中。這可以做到嗎?有沒有更可行的方法?
謝謝艾拉 - 這清理了很多。你有沒有用於生成GLR解析器的指針,或者更多地解釋「外部」(例如外部約束或外部語法檢查)? – codekaizen 2010-11-04 00:22:45
Bison將生成GLR解析器。您可能可以使用Elkhound http://scottmcpeak.com/elkhound。作爲一般背景,您可以從http://en.wikipedia.org/wiki/GLR_parser瞭解更多信息。關於外部約束:通常語法規則具有相關的語義行爲。爲了滿足我們的需求,我們在15年前推出了自己的GLR解析器,其中之一就是使語義操作可能反對(並因此否定減少)。你可以附加約束條件,例如堅持第二個SENTENCE規則,即NOUN必須是一些演員,而SAW則不是。 – 2010-11-04 01:59:07