我希望能夠使用類似tm的軟件包能夠用R分割和識別非英文字符(主要是日文/泰文/中文)。我想要什麼要做的就是將它轉換成某種格式的矩陣,然後爲文本分類運行隨機森林/邏輯迴歸。有沒有可能使用tm或其他R包來做到這一點?如何用R處理中文/日文字符
1
A
回答
2
編輯:
它看起來像R有一個很難讀非英語字符的文本。如果字符編碼是一致的,我試圖從網上抓取中文字母並得到一個可能有用的結果。
### Require package used to parse HTML Contents of a web page
require(XML)
### Open an internet connection
url <- url('http://www.chinese-tools.com/characters/alphabet.html')
### Read in Content line by line
page <- readLines(url, encoding = "UTF-8")
### Parse HTML Code
page <- htmlParse(page)
### Create a list of tables
page <- readHTMLTable(page)
### The alphabet is contained in the third table of the page
alphabet <- as.data.frame(page[3])
你現在有美國字母字符的列表,與另一列對應於如何將這些字符被讀入R.如果他們在你的原始對象相同的方式,你希望我的文字宣讀,是否有可能使用正則表達式一次搜索這些編碼字符?
+1
要獲得正確的字符,您可能需要指定編碼:'readLines(url,encoding =「UTF-8」)'。 – 2013-04-23 17:30:24
相關問題
- 1. 如何在PHP中使用fgetcsv()來處理日文字符?
- 2. 使用R處理日誌文件
- 3. 如何在資源(.resx)文件中處理字符串文字
- 4. 創建CSV文件時,如何處理字段中的\ n和\ r字符?
- 5. CMD /批處理 - 刪除UTF-8文件中的字符文件名(例如日文,中文字符)
- 6. 如何處理與寫入pdf文件中文字符
- 7. 如何將字符樣式應用於文字處理文檔中的運行?
- 8. 字符串處理文檔字符串
- 9. 如何使用pyspark saveAsTextFile處理中文字符
- 10. 如何在bash中使用美元字符($)處理文件名?
- 11. 用批處理文件替換文本文件中的字符
- 12. 如何從批處理文件中的文本文件中獲取字符串?
- 13. 如何從批處理文件中調用批處理文件?
- 14. 如何在R中使用TermDocumentMatrix來處理波斯語文本?
- 15. 如何使用特殊字符在批處理文件中創建文件夾?
- 16. 如何使用nl2br()處理字符串'\ r \ n'?
- 17. 如何在文字範圍內處理文本中的非分行連字符?
- 18. 如何處理R中的二進制字符串?
- 19. 如何在java中使用中文和日文字符作爲字符串?
- 20. antlr4文字字符串處理
- 21. 如何從批處理文件中的字符串中找到子字符串
- 22. 如何檢測文件名中的中文/日文字符?
- 23. 如何使用批處理文件將批處理文件命令追加到字符串(文件名)
- 24. 批處理文件 - 如何查找字符串中的引號?
- 25. 如何處理特殊字符在CSV文件中
- 26. 批處理文件中的Powershell - 如何轉義元字符?
- 27. 如何在Windows批處理文件中拆分字符串?
- 28. 如何轉義Windows批處理文件中的保留字符
- 29. 如何編輯批處理文件中的字符串
- 30. 如何連接Windows批處理文件中的字符串?
StackOverflow適用於更具體的問題,通常涉及您編寫的實際代碼。 – joran 2013-04-23 16:46:12
我想要字符,正則表達式就足夠了(一些正則表達式引擎甚至爲這些語言中的字符提供了字符類:'\ p {Han}','\ p {Hiragana}'等等)。如果你想要的話,這是棘手的;對於日文,我曾經使用MeCab形態分析儀,對於這種形態分析儀顯然是[R軟件包](http://rmecab.jp/wiki/index.php?RMeCab) - 但對於大型文本,它可能更容易從命令行使用它。 – 2013-04-23 17:10:36