我正在使用下面的代碼來讀取.docx文件,並且它正在成功地從文件中提取文本。但問題在於,它只是提取文本。例如,如果我的文檔數據是像下面提取docx文件中的文本
I am line 1
I am line 2 I am some other text
然後它返回我像
I am line 1I am line 2I am some other text.
我只是希望它是。我怎樣才能做到這一點。以下是我現在使用的代碼。
open System
open System.IO
open System.IO.Packaging
open System.Xml
let getDocxContent (path: string) =
use package = Package.Open(path, FileMode.Open)
let stream = package.GetPart(new Uri("/word/document.xml",UriKind.Relative)).GetStream()
stream.Seek(0L, SeekOrigin.Begin) |> ignore
let xmlDoc = new XmlDocument()
xmlDoc.Load(stream)
xmlDoc.DocumentElement.InnerText
let docData = getDocxContent @"C:\a1.docx"
printfn "%s" docData
難道你的意思「因爲它是」要保留外觀和感覺? – 2012-02-28 18:15:40
對我來說,它返回; 'val docData:string =「我是第一行我是第二行我是一些其他的文本」「(與正確數量的空格) – Dirk 2012-02-28 18:42:33
@GeneBelitski我不需要格式化,但我只需要用換行符和空格來保存。 – Exception 2012-02-29 08:59:21