0
A
回答
0
我相信你所指的過程是one-hot encoding。您首先需要使用的寬度3.滑動窗口在這裏看到你的DNA序列轉變成3BP字序列:Generate a list of strings with a sliding window using itertools, yield, and iter() in Python 2.7.1?
所以,你應該有類似的DNA「字」列表(例如['aaa', 'tgc']
)然後你會想要將每個單詞轉換成一個向量。做到這一點的一種方法是創建一個字典,其中包含所有可能的單詞和值的關鍵字,並帶有單表示形式。然後,您可以使用列表理解和字典查找,簡單地將每個單詞轉換爲其相應的向量。這可能不是最有效的方式,但這是一個開始。 sklearn有OneHotEncoder,但它只適用於整數。請參見https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/
相關問題
- 1. 計算DNA序列
- 2. DNA序列操作
- 3. 查找DNA序列的互補序列
- 4. Tensorflow-特徵列
- 5. 特徵散列
- 6. DNA與蛋白質序列
- 7. Play 2.1 Json序列化特徵
- 8. Upickle密封特徵的序列化/反序列化
- 9. 拆分的DNA序列與d
- 10. 按特徵值排序特徵向量(相關排序)
- 11. 用於在Python中查找特徵的非排序特徵值
- 12. 網格上的排序特徵值和特徵向量
- 13. DNA配對,陣列
- 14. 帶有bagof特徵的SIFT特徵
- 15. 二進制特徵的組合(向量)
- 16. python numpy排序特徵值
- 17. 特徵
- 18. ObjectiveC:按特定順序讀取特徵
- 19. 存儲特徵陣列列表
- 20. 用於分類特徵的Tensorflow嵌入
- 21. 如何在Pandas中對時間序列數據進行特徵化?
- 22. 的OpenLayers與類型特徵的陣列WFS僅顯示一個類型特徵
- 23. dsygv中的特徵向量的順序
- 24. Scala中的有序特徵的問題
- 25. 過濾矢量類型的「特徵」列
- 26. 排列陣列中的DNA鹼基對
- 27. 重新排列特徵庫中Schur因子分解的特徵值
- 28. 特徵工程的Ngram順序選擇
- 29. Python中時間序列數據集的特徵工程
- 30. 具有外部特徵的多個時間序列數據集