2014-10-01 40 views
1

我正嘗試將一堆MS Word文件(.doc和.docx)讀入R.
我必須在標題中隨同內容一起閱讀。將MS字標題讀入R

我能夠通過使用@BondedDust給出的方法how do I create a corpus of *.docx files with tm?
做到這一點的.DOCX文件頭被保存在單獨的XML,我可以閱讀。

但是,我無法爲.doc文件執行此操作。我試圖將文件保存爲html,txt等,所有這些都不捕獲頭。
我也嘗試使用tm包中的readDOC(),但使用它的文檔很少。

任何人都可以請幫助?

我在Windows 7

回答

0

運行v 3.0.3要使用readDOC()你需要安裝antiword

readDOC()函數需要list作爲第一個參數和指定的語言(ID是可選的)。下面是一個匆忙製作的示例文件.doc file:

wordReader <- readDOC() 
word_info <- wordReader(list(uri="test1.doc"), language="en") 

word_info$meta 

## Metadata: 
## author  : character(0) 
## datetimestamp: 2014-10-01 11:07:52 
## description : character(0) 
## heading  : character(0) 
## id   : test1.doc 
## language  : en 
## origin  : character(0) 

word_info$content 

## [1] ""  "Test" ""  
+0

感謝您的快速響應。但仍然無法讀取標題 - [MS word header](https://github.com/tm2222/testRepo/blob/master/MS%20word%20header.png)。 由於我沒有足夠的信譽來添加圖像,因此我已經提供了GitHub鏈接以查看MS Word標題部分的屏幕截圖。 – TejasM 2014-10-01 12:22:46

+0

我現在正在尋找批量轉換doc到docx的方法。然後我會將docx讀入R. – TejasM 2014-10-01 12:27:27