2013-03-13 39 views
5

我試圖用的fread讀取基因組比對到R的data.table這裏是對齊文件的快照:讀數鏈(+, - )柱用fread,data.table包

USI-EAS28:1:100:1786:674#0/1 + 1_maternal 68326824  CTCAATTATACTGAAAGAAACACAATATATCATA IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 
USI-EAS28:1:100:1786:940#0/1 + 16_maternal 11407541 CTATTAGTGACCTGCTGTGGGACCTTGGGATGGT IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 
USI-EAS28:1:100:1786:705#0/1 + 1_maternal 63849584 CTGAGGGTTTGTGTCAGGAAGGGGTGTGGAATTG IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 0:T>C 
USI-EAS28:1:100:1786:1168#0/1 - 5_maternal 31381649 GCATCATTCATGAAACAATTTTCAAGAGAGGAAA IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 
USI-EAS28:1:100:1787:582#0/1 + 10_maternal 54587781 CTACAATAATAATAGGGGACTAAAACACCCCACT IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 
USI-EAS28:1:100:1787:62#0/1 + 10_maternal 70390747  CTATTTGCTACTGAATTGTTAATTTTAAAACAGT IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 
USI-EAS28:1:100:1788:573#0/1 - 7_maternal 92583837  CACTGTCAACATTAGACAGACCAATGAGACAAAG IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 
USI-EAS28:1:100:1788:854#0/1 + 7_maternal 129611206 GTTTGTTTTTTTTTTTGAGATGGAGTCTCATTTT IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 32:C>T 
USI-EAS28:1:100:1788:185#0/1 - 13_maternal 23694307 CAAACAAACTCAAAATGGACTATCGACTGAAAAA IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 
USI-EAS28:1:100:1788:1339#0/1 - 13_maternal 33699510 TTAACTCTAGTTTTTAGGGATTGCAAATTAGACG IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII 0 0:A>G 

第二列報告讀取對齊的鏈(+爲正向,-爲反向)。不幸的是,fread試圖將這個列讀入一個整數,總是賦值爲0.這個列應該被看作是一個字符,或者甚至是布爾值。試圖玩弄參數sepsep2沒有幫助。

回答

3

感謝您的舉報。現在固定在v1.8.9提交849. +-現在讀爲字符,測試添加。

順便說一下,我們還打算添加colClasses,以便您可以覆蓋fread檢測到的列類型。與fread有關的出色的待辦事項列表位於此處的源文件頂部:
https://r-forge.r-project.org/scm/viewvc.php/pkg/src/fread.c?view=markup&root=datatable

+0

謝謝你,馬修。其實colClasses是第一個想到的,但正如你所知,它只能作爲read.table的參數;期待它也是fread的一個論據! – 2013-03-13 15:59:12

+0

@AlvaroGonzalez嗨。實際上並不需要'colClasses'。如果在'+'或'-'之後沒有數字,它現在將它讀作'character'。通常在幾個小時內(當它表示rev 849和status:current)時,可從[R-Forge repo](https://r-forge.r-project.org/R/?group_id=240)獲得。 – 2013-03-15 20:00:28

+0

它像一陣微風,@MatthewDowle。非常感謝。 – 2013-03-18 17:15:38