Q

Haskell的哪個XML解析器？

2009-06-26 54 views 9 likes

9

我想寫一些應用程序，執行數據分析，存儲在相當大的XML文件（從10到800MB）。每組數據都存儲爲單個標籤，具體數據被指定爲attrobutes。我現在從HaXml中獲得了saxParse，並且在使用它的時候對內存使用情況不滿意。在解析15Mb XML文件時，它會消耗超過1Gb的內存，儘管我試圖不將數據存儲在列表中，並立即進行處理。我用下面的代碼：Haskell的哪個XML解析器？

importOneFile file proc ioproc = do 
    xml <- readFile file 
    let (sxs, res) = saxParse file $ stripUnicodeBOM xml 
    case res of 
     Just str -> putStrLn $ "Error: " ++ str; 
     Nothing -> forM_ sxs (ioproc . proc . (extractAttrs "row"))

其中「PROC」 - 程序，它執行從屬性數據轉換成記錄和「ioproc」 - 程序，執行一些IO動作 - 輸出到屏幕，存儲在數據庫中，等等。

如何在XML解析期間減少內存消耗？切換到另一個XML解析器有幫助嗎？

更新：哪個解析器支持不同的輸入編碼 - utf-8，utf-16，utf-32等？

2009-06-26 Alex Ott

A

回答

4

如果您願意認爲您的輸入有效，請考慮查看來自Galois夥伴的TagSoup或Text.XML.Light。

這些採取字符串作爲輸入，這樣你就可以（間接）餵它們什麼Data.Encoding理解，即

2009-06-27 13:54:13

3

我不是Haskell的專家，但是你碰到的聲音聽起來像一個經典的空間泄漏（即Haskell的懶惰評估導致它保留超過必要的內存的情況）。你可以通過強制你的saxParse輸出來解決它。

還有在Real World Haskell.

編輯的分析和優化良好的章節：上找到分析/發現另一個很好的資源瓶頸here。

2009-06-26 12:46:54 rtperson

相關問題

1. Haskell JSON解析器不解析對象
2. 選擇Haskell解析器
3. 實施（<++）內一個Haskell解析器
4. Haskell - >在'哪裏'解析錯誤
5. XML解析器，多個根
6. XML解析器
7. 解析JSON haskell
8. xml解析器：解析器foundCharacters錯誤
9. SAX XML解析器或DOM解析器？
10. PhoneGap XML解析器？
11. cakephp xml解析器
12. Android XML解析器
13. Javascript XML解析器
14. xml解析器，iPhone
15. 在Haskell中解析一個簡單的解釋器
16. Haskell功能齊全的CSV解析器？
17. 解析器爲Haskell中的Data.ByteString.Lazy.Char8？
18. 爲haskell中的人編寫解析器
19. Haskell Parsec遇到的解析器[...]
20. 哪個XML解析器用於此數據？
21. 哪個解析器可以讀取Spring和Hibernate XML文件？
22. 一個簡單的C XML解析器
23. 如何實現兩個解析器來解析一個XML？
24. Haskell，解析錯誤
25. 困難的XML解析器
26. Widgets的Wirecloud xml解析器
27. Ruby的XML解析器
28. OpenCV中的XML解析器
29. 的Filemaker XML解析器
30. 使用android sax解析器解析XML