1
我正嘗試將一堆MS Word文件(.doc和.docx)讀入R.
我必須在標題中隨同內容一起閱讀。將MS字標題讀入R
我能夠通過使用@BondedDust給出的方法how do I create a corpus of *.docx files with tm?
做到這一點的.DOCX文件頭被保存在單獨的XML,我可以閱讀。
但是,我無法爲.doc文件執行此操作。我試圖將文件保存爲html,txt等,所有這些都不捕獲頭。
我也嘗試使用tm包中的readDOC(),但使用它的文檔很少。
任何人都可以請幫助?
我在Windows 7
感謝您的快速響應。但仍然無法讀取標題 - [MS word header](https://github.com/tm2222/testRepo/blob/master/MS%20word%20header.png)。 由於我沒有足夠的信譽來添加圖像,因此我已經提供了GitHub鏈接以查看MS Word標題部分的屏幕截圖。 – TejasM 2014-10-01 12:22:46
我現在正在尋找批量轉換doc到docx的方法。然後我會將docx讀入R. – TejasM 2014-10-01 12:27:27