正在使用Word Interop和adn C#在工作中構建一個程序,其中的一個功能獲得了一個字數。使用c#interop從word文檔獲取格式
現在這不可能是Word字數,因爲我需要模擬在工作中使用的CAT工具的字數。
我發現的一個問題是,CAT工具使用文本格式來分割單詞。這意味着如果我有第一個詞,並且上標爲單詞,那麼單詞將會計數一個單詞(因爲兩個單詞之間沒有任何分隔),並且CAT工具根據文本格式更改計數2個單詞。
事情是CAT工具跟蹤格式變化和信息打破這個詞。因此,我可以逐字逐句逐字逐句檢查所有可能性(字體,粗體,斜體等),但是如果多個文檔每個都有1000個單詞,那麼這將非常緩慢。
有誰知道更好的解決方案?
您可以檢查應用於文檔的不同樣式以及它們在哪裏? – 2012-01-05 12:09:57
哪個版本的Word - doc或docx?如果docx,你可以嘗試解析XML。 – sq33G 2012-01-05 12:13:13
Interop是強制性的嗎? – Yahia 2012-01-05 12:16:52