2017-10-09 76 views
0

我有一個數據集包含DNA序列,我想將它們轉換成數字表示。本文件中:進入特徵的DNA序列

DNA to Binary

  • 這是什麼過程(轉變),我想搜索一下嗎?
  • 如何在python中應用它?
  • 它可以作爲一個大數組,作爲數據集輸入嗎?

回答

0

我相信你所指的過程是one-hot encoding。您首先需要使用的寬度3.滑動窗口在這裏看到你的DNA序列轉變成3BP字序列:Generate a list of strings with a sliding window using itertools, yield, and iter() in Python 2.7.1?

所以,你應該有類似的DNA「字」列表(例如['aaa', 'tgc'])然後你會想要將每個單詞轉換成一個向量。做到這一點的一種方法是創建一個字典,其中包含所有可能的單詞和值的關鍵字,並帶有單表示形式。然後,您可以使用列表理解和字典查找,簡單地將每個單詞轉換爲其相應的向量。這可能不是最有效的方式,但這是一個開始。 sklearn有OneHotEncoder,但它只適用於整數。請參見https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/