2017-08-04 128 views
1

我正在爲共享自定義功能代碼的TensorFlow編寫C++和CUDA操作系統。通常在CPU和CUDA實現之間共享代碼時,如果編譯CUDA,則會定義一個宏來將__device__說明符插入到函數簽名中。在TensorFlow中是否有以這種方式共享代碼的內置方式?TensorFlow CPU和CUDA代碼共享

如何定義可以在CPU和GPU上運行的實用函數(通常是內聯)?

回答

0

事實證明,在TensorFlow中的下列宏將做我所描述的。

namespace tensorflow{ 
    EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE 
    void foo() { 
     // 
    } 
}