與字符替換可變長度字符串匹配原始字符串長度

我使用的是正則表達式：與字符替換可變長度字符串匹配原始字符串長度

>\.*<

匹配的字段3的某些部分，但我不能找出如何與多個字符替換會保留原始字符串的長度。

輸入：

field1 field2 >>>>>.>............>>>.........<<<.......>>>>.......<<<<.<.<<<<<.

預期輸出：

field1 field2 >>>>>.>............>>LLLLLLLLLLL<<.......>>>LLLLLLLLL<<<.<.<<<<<.

我可憐的失敗嘗試：

awk 'match($3, />\.*</){split($3, sst, "");for(i=RSTART;i<=RLENGTH;i++){sst[i]="L"};joined=sep="";for(x=1; x in sst;x++){joined=joined sep sst[x];sep=""};printf("%s\n", joined)}' hg19-matRNA.tsv > test2.tsv

任何幫助將不勝感激！

來源

2017-10-06 JeanMiCarter

用Perl，它是非常清晰的，像'的perl -pe的/>(\.*） L 「x長（$ 1）」。「。「<」/ eg'' –

如果你沒有將所有的代碼都塞進一行，你會讓自己變得更容易（並且我們試圖幫助你）。 –

隨着GNU AWK的第三ARG匹配（）和gensub（）：

$ cat tst.awk 
{ 
    while (match($3,/(.*)(>\.*<)(.*)/,a)) { 
     $3 = a[1] gensub(/./,"L","g",a[2]) a[3] 
    } 
    print 
} 

$ awk -f tst.awk file 
field1 field2 >>>>>.>............>>LLLLLLLLLLL<<.......>>>LLLLLLLLL<<<.<.<<<<<.

對於任何AWK：

$ cat tst.awk 
{ 
    while (match($3,/>\.*</)) { 
     tgt = substr($3,RSTART,RLENGTH) 
     gsub(/./,"L",tgt) 
     $3 = substr($3,1,RSTART-1) tgt substr($3,RSTART+RLENGTH) 
    } 
    print 
} 

$ awk -f tst.awk file 
field1 field2 >>>>>.>............>>LLLLLLLLLLL<<.......>>>LLLLLLLLL<<<.<.<<<<<.

來源

2017-10-06 21:19:08

AWK溶液。你可以使用patsplit以及這樣的：

$ cat tst.awk 
{ 
    patsplit($3, a, ">\\.+<", seps) 
    l=(length(a)>length(seps)?length(a):length(seps)) 
    for (i=0; i<l; i++){ 
    if (i in a) gsub(/./,"L",a[i]) 
    s=s sprintf("%s", (i in a)?a[i]seps[i]:seps[i]) 
    } 
    $3=s 
}1 

$ awk -f tst.awk file 
field1 field2 >>>>>.>............>>LLLLLLLLLLL<<.......>>>LLLLLLLLL<<<.<.<<<<<.

來源

2017-10-07 14:54:41

與字符替換可變長度字符串匹配原始字符串長度

回答

相關問題