解析同一文法的不同文件並計算文件的相似度

我有一堆ACPI源語言文件，我想計算文件以歸檔它們之間的相似度。我想用類似Perl的解析:: RecDescent的的，但我被困在：解析同一文法的不同文件並計算文件的相似度

1）翻譯的ACPI語法（www.acpi.info/DOWNLOADS/ACPIspec40a.pdf）的東西解析:: RecDescent的會理解 2）有一個度量來比較2解析文件

任何想法？

2011-05-02 719016

所有你想要的是一個「相似性」而不是實際的增量？爲什麼不只是計算數量差異產生的行給出了一個有用的相似性數字？也許你想使用它們的語法樹比較文件？ – 2011-05-03 14:10:11

是的，我想根據通用語法 – 719016 2011-05-06 12:12:08

使用它們的內容進行比較，如果您使用的是perl 5.10或更新版本，我會推薦使用[Regexp :: Grammars]（http://search.cpan.org /dist/Regexp-Grammars/lib/Regexp/Grammars.pm）而不是Parse :: RecDescent – 2011-05-22 00:37:16

所以，你有兩個問題：

解析ACPI建立一個AST。這有一個常見的問題，那就是確保你有一個明確定義的語法，你的解析機制可以根據這個語法來解析（通常你必須彎曲一個好的語法定義來使解析機器能夠處理它），並且建立一個相應的AST 。你將會遇到Perl解析機制的麻煩，因爲它是一個解析引擎。
比較AST的結構併產生明智的答案。你可能在這裏找到的是有一些文獻很好地描述瞭如何做到這一點（例如使用Levenshtein distance），但AST的細節很重要。（Change distilling: Tree differencing for fine-grained source code change extraction最後，在確定的距離，你需要一些可讀的形式打印出來的增量。

然而，據我所知，我公司是國內唯一一傢俱有降低此練習。請參閱我們的Smart Differencer工具。 SmartDifferencers通過一致的標識符替換來解析，構建AST和報告轉換器的AST元素移動，插入，刪除，替換或修改，它們依賴於任何潛在的非常強大的GLR解析引擎，它們可以最大限度地減少接受新語法的問題。爲許多常用語言工作，但目前不用於ACPI。

來源

2011-05-09 00:25:04

要開始使用Parse :: RecDescent的，你可以看Pro Perl Parsing, Ch. 5或在Advanced Perl Programming, Ch. 2
的Xml比較工具，應適當比較分層結構化數據;也許你可以申請這樣的工具，以XML格式保存的AST

來源

2011-05-02 13:23:59

解析同一文法的不同文件並計算文件的相似度

回答

相關問題