2013-04-06 52 views
0

假設我有一個word文檔的內容就像下面提取指定的信息從Microsoft Word

Name: Blabla1 
Address: Blablabla2 
History Employment: Blablabla3 
        Blablabla4 
        Blablabla5 

我的問題在這裏是如何以及什麼算法(如果存在的話)來提取這些信息納入類在C#。

Class Employee { 
    public string Name { get; set; } 
    public string Address { get; set; } 
    public IEnumerable<string> History = new IList<string>(); 
} 

有什麼建議嗎?

var Employee = ExtractMethodFromDoc(docPath); 

回答

1

MS Word通過OLE自動化完全腳本化。

c#中沒有通用庫用於此目的。您可以使用第三方應用程序轉換爲其他格式,例如ASCII。

您也可以參考爲此,這個鏈接PERL模塊:

http://www.xav.com/perl/site/lib/Win32/OLE.html

您也可以參考這個MSDN:

http://msdn.microsoft.com/en-us/library/cc974107%28office.12%29.aspx

您也可以使用這個打開XML SDK 2.0代碼鏈接如下:

http://www.microsoft.com/en-us/download/details.aspx?id=17985

+0

轉換爲其他格式可能不是最好的解決方案,沒有承授人在轉換過程中保留所有信息。 – David 2013-04-06 05:12:17

+0

@David我搜索了它,但沒有找到替代品,對不起,請參閱此附加SDK,如果有幫助>> http://openxmldeveloper.org/discussions/development_tools/f/17/t/5992.aspx – Freelancer 2013-04-06 05:38:08

+0

您的評論太過於絕對,強烈不同意,原諒我,:)。您不必使用PowerShell等腳本。例如,在Visual Studio中,您可以使用文檔級自定義(請參閱http://msdn.microsoft.com/zh-cn/library/aa942839.aspx)來訪問Word文檔的所有內容,但它不會太難將文本解析爲結構表示,例如包含所需信息的類實例。 – David 2013-04-06 07:04:54

0

你可以使用微軟的單詞dll。 創建word dll的對象並加載數據。