1
我正在爲共享自定義功能代碼的TensorFlow編寫C++和CUDA操作系統。通常在CPU和CUDA實現之間共享代碼時,如果編譯CUDA,則會定義一個宏來將__device__
說明符插入到函數簽名中。在TensorFlow中是否有以這種方式共享代碼的內置方式?TensorFlow CPU和CUDA代碼共享
如何定義可以在CPU和GPU上運行的實用函數(通常是內聯)?
我正在爲共享自定義功能代碼的TensorFlow編寫C++和CUDA操作系統。通常在CPU和CUDA實現之間共享代碼時,如果編譯CUDA,則會定義一個宏來將__device__
說明符插入到函數簽名中。在TensorFlow中是否有以這種方式共享代碼的內置方式?TensorFlow CPU和CUDA代碼共享
如何定義可以在CPU和GPU上運行的實用函數(通常是內聯)?
事實證明,在TensorFlow中的下列宏將做我所描述的。
namespace tensorflow{
EIGEN_DEVICE_FUNC EIGEN_STRONG_INLINE
void foo() {
//
}
}