2009-10-15 58 views
0

我需要添加一堆word文檔到維基,但想要清理生成的html,所以理想情況下我有文本和圖像標籤......任何人都面臨挑戰? :o)去除格式化Word文檔而不是圖像?

如果解決方案涉及到使用文本編輯器並在其上做一些「體操」,那就沒問題。

回答

2

有些工具可以爲您執行大部分清理工作,例如herehere,Dreamweaver也包含此類工具。

我不知道這些工具如何處理圖片,但...如果您選擇更多的DIY路線,this可以幫助我,我認爲。

+0

Textism工具似乎可以工作(第一個去掉圖像標籤),儘管當文件大小超過20kB時,它是付費服務。 JavaScript可能也有幫助:o) – noesgard 2009-10-16 07:29:42

1

我會將文本複製出Word並粘貼到記事本中,然後手動將我的圖像輸入到Wiki文檔中。

+0

這不是一個有效的解決方案。隨着文件加載圖片hundres - 手動插入是不行的。可以做一些高級的文本編輯或者使用例如應用程序的應用程序。 VSTO,通過保存爲過濾的html文件並修正圖像鏈接以適應wiki文件結構來運行... – noesgard 2009-10-16 06:07:34

1

嗨,我已經與Open XML一點點。

您可以循環查看每個段落的單詞文檔並將每個元素轉換爲文字控件。或者你也可以使用LINQ來過濾特定的節點集。您也可以將您的word文件作爲XML節點集處理,然後使用XPath,LINQ to XML,DOM進行導航。

只需嘗試使用SDK下載Open XML工具集,並開始查看文檔內部。