目前我正在做一些實驗,這使得利用維基百科的文章。 維基百科轉儲文件約爲30GB。有工具可用(最好是PHP)或一些腳本,可以將這個整個大文件分成塊(每個文章一個xml文件)?分裂維基百科轉儲文件分成幾個XML文件
0
A
回答
1
這裏有一個文章:Building a (fast) Wikipedia offline reader描述相似
東西它可以不依賴於PHP就像你喜歡,而是討論轉儲文件分成可管理的部分。
0
我建議你使用優秀XMLReader,它允許您閱讀節點的XML文件的節點,而不是整個文件加載到內存第一。
您仍然可以瀏覽與DOM或SimpleXML的節點後!
相關問題
- 1. 處理維基百科轉儲文件
- 2. 在MySQL中導入非英文維基百科XML轉儲?
- 3. 從維基百科獲取文章XML轉儲 - 通過標題
- 4. 分裂大文件分成小文件
- 5. 解析維基百科轉儲
- 6. 使用大* .bz2(維基百科轉儲)
- 7. 簡單的維基百科文本到純文本分析器?
- 8. 從維基百科轉儲提取並行文本
- 9. 維基百科:轉儲文章ID的和它的類別
- 10. 拆分models.py分成幾個文件
- 11. 過濾維基百科的XML轉儲:某些口音錯誤
- 12. 如何用R分析維基百科文章的數據庫?
- 13. 如何通過URL區分維基百科文章?
- 14. 分裂類文件
- 15. 什麼是用來當我讀到關於維基百科幾何/圖形文章,以創建維基百科
- 16. 維基百科:Java庫刪除維基百科文本標記刪除
- 17. PHP +維基百科:從維基百科文章的第一段獲取內容?
- 18. 劈裂帶文本的txt文件在幾個部分
- 19. 維基百科API
- 20. 維基百科文本下載
- 21. 獲得維基百科文章概要
- 22. 總結維基百科文章
- 23. 隱藏維基百科文章反饋
- 24. 從維基百科取代文本
- 25. 從維基百科頁面獲取xml
- 26. 通過模板分配維基百科分類
- 27. 從維基百科參考部分刮刮目錄部分
- 28. 從維基百科API獲取SVG文件
- 29. 使用維基百科表格重新命名文件
- 30. 下載所有維基百科圖片的文件