2011-02-23 76 views
5

請告訴我如何處理這個問題:從MS Word文檔構建數據庫的最佳方法是什麼?

我有一個MS Word文檔中的元數據順序列表。其基本思想是創建一個Python算法來迭代信息,從數據庫中檢索PROCESS的名稱,何時作爲隊列。

實施例的元數據:

過程:過程沃克(1965)
精確參考:沃克工藝設備公司訴食品機械公司

鏈接:http://caselaw.lp.findlaw.com/scripts/getcase.pl?court=US&vol=382&invol=

類型的程序:向提審的美國法院呼籲第七巡迴賽。 締約方:沃克工藝設備,公司

部門:系統是...

開始日期: 10月12-13日阿格達斯,1965年
摘要:食品機械公司已啓動了通過使用通過欺詐獲得的專利來阻止或減緩競爭者進入的過程。該案涉及在曝氣設備用於污水處理系統「的膝部動作擺動擴散器」專利,問題是「專利局以欺詐手段獲得專利的維護和執法」是否可能是反壟斷處罰的依據。演化過程的
報告:申請人在回答迴應...

重要性:一),它建立了糾紛的診斷分析第一種情況......

大約有200頁包含上述信息。

我記得在Python中實現一個算法的想法是能夠打破這個信息序列並嘗試將它存儲在一個Web數據庫(我正在尋找的一個開源應用程序)中,以便允許免費諮詢。

+0

難道這些總是有相同的部分,以相同的順序? 「過程:...」總是第一行嗎? – Orbling 2011-02-23 23:57:49

+0

@ S.洛特:我認爲這是一個完全合理的問題。這是一種數據格式,我怎樣才能將數據轉換爲數據庫。 – Orbling 2011-02-24 00:44:17

+0

是什麼版本的Word?如果2007(.docx),那麼你可以看看[Office Open XML](http://en.wikipedia.org/wiki/Office_Open_XML) – Jetti 2011-02-24 01:38:25

回答

3

退房AntiWord轉換成純文本文件,然後用grep和sed轉換爲一種格式,你可以管到你的腳本。

2

最新版本的Word允許您以XML格式保存文檔。這可以通過顯式「另存爲」並選擇XML,或解壓縮.docx文件並解析其XML來完成。該XML格式的在線文檔取決於Word的版本:2003 Office XML2007/2010 Office Open XML

任何更強大的功能(例如需要操作文檔)都需要與.NET(MS Open XML SDKAspose.Words)對接。

相關問題