我正在使用R進行文本分析,並且需要將句子的第一個字母轉換爲小寫,同時保留其他大寫字母的方式。所以我用命令無法刪除txt文件中的空白行R
x <- gsub("(\\..*?[A-Z])", '\\L\\1', x, perl=TRUE)
哪些工作,但部分。問題在於,爲了進行文本分析,我必須將pdf文件轉換爲txt格式,而現在txt文件包含大量空行(分頁符,可能返回的內容),因此我使用的命令不會將大寫字母出現在新行中。我試圖用多個\ s刪除空行,使用gsub中的不同組合,\ r,\ n但沒有任何效果。當我做檢查(X)的TM-包,輸出看起來按以下方式:
[346]
[347] Thank you.
[348]
[349] Vice President of Investor Relations
[350]
我將不勝感激,如果有人可以幫助我!
你是什麼意思的「句首」字?多少封信?他們全部?他們中有一些? –
只是第一個資本,所以它看起來像: '[341]效率和生產力。我們認爲' –