如何用R處理中文/日文字符

我希望能夠使用類似tm的軟件包能夠用R分割和識別非英文字符（主要是日文/泰文/中文）。我想要什麼要做的就是將它轉換成某種格式的矩陣，然後爲文本分類運行隨機森林/邏輯迴歸。有沒有可能使用tm或其他R包來做到這一點？如何用R處理中文/日文字符

2013-04-23 Pritish Kakodkar

StackOverflow適用於更具體的問題，通常涉及您編寫的實際代碼。 – joran 2013-04-23 16:46:12

我想要字符，正則表達式就足夠了（一些正則表達式引擎甚至爲這些語言中的字符提供了字符類：'\ p {Han}'，'\ p {Hiragana}'等等）。如果你想要的話，這是棘手的;對於日文，我曾經使用MeCab形態分析儀，對於這種形態分析儀顯然是[R軟件包]（http://rmecab.jp/wiki/index.php?RMeCab） - 但對於大型文本，它可能更容易從命令行使用它。 – 2013-04-23 17:10:36

編輯：

它看起來像R有一個很難讀非英語字符的文本。如果字符編碼是一致的，我試圖從網上抓取中文字母並得到一個可能有用的結果。

### Require package used to parse HTML Contents of a web page 
require(XML) 
### Open an internet connection 
url <- url('http://www.chinese-tools.com/characters/alphabet.html') 
### Read in Content line by line 
page <- readLines(url, encoding = "UTF-8") 
### Parse HTML Code 
page <- htmlParse(page) 
### Create a list of tables 
page <- readHTMLTable(page) 
### The alphabet is contained in the third table of the page 
alphabet <- as.data.frame(page[3])

你現在有美國字母字符的列表，與另一列對應於如何將這些字符被讀入R.如果他們在你的原始對象相同的方式，你希望我的文字宣讀，是否有可能使用正則表達式一次搜索這些編碼字符？

來源

2013-04-23 16:53:25 Andreas

要獲得正確的字符，您可能需要指定編碼：'readLines（url，encoding =「UTF-8」）'。 – 2013-04-23 17:30:24

如何用R處理中文/日文字符

回答

相關問題