我正試圖在兩列數據列表中查找唯一且重複的數據。我真的只是想將數據列與1使用linux命令「sort -f | uniq -i」一起忽略大小寫
的數據可能是這樣的(由製表符分隔):
What are you doing? Che cosa stai facendo?
WHAT ARE YOU DOING? Che diavolo stai facendo?
what are you doing? Qual è il tuo problema amico?
所以我一直在玩弄如下:
而不忽略大小寫分選(只是 「排序」,沒有-f選項)給我少重複
GAWK「{FS = 「\ t」 的;打印$ 1}'EN-IT_Corpus.txt | sort | uniq的-i -D>愚弄
與忽略大小寫( 「排序-f」)分揀給我更多的重複
GAWK「{FS = 「\ t」 的;打印$ 1}'EN-IT_Corpus.txt | sort -f | uniq的-i -D>愚弄
難道我真的認爲#2是更準確的,如果我想找到重複忽略的情況下,因爲它排序它首先忽略大小寫,然後查找基於排序的數據複製?
據我所知,我不能合併排序和獨特的命令,因爲排序沒有顯示重複的選項。
謝謝你,史蒂夫
的是從你的樣本數據你想要的輸出? – 2013-02-23 00:37:40