R提取部分字符串

我對提取部分字符串有疑問。例如，我有一個這樣的字符串：R提取部分字符串

a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"

我需要在這裏GN=和;之間提取的一切。所以這將是NOC2L。

這可能嗎？

說明：這是INFO列形式VCF file format。 GN是基因名稱，所以我們想從INFO列中提取基因名稱。

來源

2012-03-15 Lisann

問題是有點不清楚，因爲它似乎你所期望的字符串不會總是後面跟一個分號。 – jbaums 2012-03-15 14:12:45

試試這個：

> sub(".*?GN=(.*?);.*", "\\1", a) 
[1] "NOC2L"

來源

2012-03-15 13:53:42 kohske

感謝Kohske。而如果NOC2L處於線路末端呢？然後選擇洞線！ – Lisann 2012-03-15 13:58:30

你的字符串是怎樣的？你能舉個例子嗎？ – kohske 2012-03-15 14:03:09

像這樣：a = -DP = 26; AN = 2; DB = 1; AC = 1; MQ = 56; MZ = 0; ST = 5：10,7：2; CQ = SYNONYMOUS_CODING; GN = NOC2L – Lisann 2012-03-15 14:04:12

一種方法是：

gsub(".+=(\\w+);.+", "\\1", a, perl=T)

我相信有更優雅的方式來做到這一點。

來源

2012-03-15 13:59:21 johannes

a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0" 
m = regexpr("GN.*;",a) 
substr(a,m+3,m+attr(m,"match.length")-2)

來源

2012-03-15 14:00:12

假設分號分隔的元素，和鍵/值對之間僅僅發生的跡象等於，非嚴格的正則表達式的方法是：

bits <- unlist(strsplit(a, ';')) 
do.call(rbind, strsplit(bits, '=')) 

     [,1] [,2]    
[1,] "DP" "26"    
[2,] "AN" "2"     
[3,] "DB" "1"     
[4,] "AC" "1"     
[5,] "MQ" "56"    
[6,] "MZ" "0"     
[7,] "ST" "5:10,7:2"   
[8,] "CQ" "SYNONYMOUS_CODING" 
[9,] "GN" "NOC2L"    
[10,] "PA" "1^1:0.720&2^1:0"

然後，它只是一個選擇適當的事元件。

來源

2012-03-15 14:09:50 jbaums

由於字符串是從VCF文件來了，我們就可以使用VariantAnnotation包：

library(VariantAnnotation) 

# read dummy VCF file 
fl <- system.file("extdata", "chr22.vcf.gz", package="VariantAnnotation") 
vcf <- readVcf(fl, "hg19") 

# see first 5 variables for info column 
info(vcf)[1:3, 1:5] 
# DataFrame with 3 rows and 5 columns 
#     LDAF AVGPOST  RSQ  ERATE  THETA 
#    <numeric> <numeric> <numeric> <numeric> <numeric> 
# rs7410291  0.3431 0.9890 0.9856  2e-03 0.0005 
# rs147922003 0.0091 0.9963 0.8398  5e-04 0.0011 
# rs114143073 0.0098 0.9891 0.5919  7e-04 0.0008 

# Now extract one column, e.g.: LDAF 
info(vcf)[1:3, "LDAF"] 
# [1] 0.3431 0.0091 0.0098

在上面的例子中VCF對象不存在「GN」一欄，但這個想法是一樣的，所以你的情況，下面應該工作：

# extract gene name 
info(vcf)[, "GN"]

來源

2016-12-13 08:51:02 zx8754

R提取部分字符串

回答

相關問題