2013-04-23 81 views
1

我希望能夠使用類似tm的軟件包能夠用R分割和識別非英文字符(主要是日文/泰文/中文)。我想要什麼要做的就是將它轉換成某種格式的矩陣,然後爲文本分類運行隨機森林/邏輯迴歸。有沒有可能使用tm或其他R包來做到這一點?如何用R處理中文/日文字符

+1

StackOverflow適用於更具體的問題,通常涉及您編寫的實際代碼。 – joran 2013-04-23 16:46:12

+0

我想要字符,正則表達式就足夠了(一些正則表達式引擎甚至爲這些語言中的字符提供了字符類:'\ p {Han}','\ p {Hiragana}'等等)。如果你想要的話,這是棘手的;對於日文,我曾經使用MeCab形態分析儀,對於這種形態分析儀顯然是[R軟件包](http://rmecab.jp/wiki/index.php?RMeCab) - 但對於大型文本,它可能更容易從命令行使用它。 – 2013-04-23 17:10:36

回答

2

編輯:

它看起來像R有一個很難讀非英語字符的文本。如果字符編碼是一致的,我試圖從網上抓取中文字母並得到一個可能有用的結果。

### Require package used to parse HTML Contents of a web page 
require(XML) 
### Open an internet connection 
url <- url('http://www.chinese-tools.com/characters/alphabet.html') 
### Read in Content line by line 
page <- readLines(url, encoding = "UTF-8") 
### Parse HTML Code 
page <- htmlParse(page) 
### Create a list of tables 
page <- readHTMLTable(page) 
### The alphabet is contained in the third table of the page 
alphabet <- as.data.frame(page[3]) 

你現在有美國字母字符的列表,與另一列對應於如何將這些字符被讀入R.如果他們在你的原始對象相同的方式,你希望我的文字宣讀,是否有可能使用正則表達式一次搜索這些編碼字符?

+1

要獲得正確的字符,您可能需要指定編碼:'readLines(url,encoding =「UTF-8」)'。 – 2013-04-23 17:30:24

相關問題