張量流這兩種LSTM實現有什麼區別，如何初始化LSTM的8個權矩陣？

我很困惑如何爲LSTM定義權重矩陣。由於LSTM有8個權矩陣，我不知道如何初始化這些權矩陣用於張量流中的LSTM。張量流這兩種LSTM實現有什麼區別，如何初始化LSTM的8個權矩陣？

但後來我遇到了這個implementation，這是完全有道理的，因爲它具有所有8個加權矩陣，但它不使用LSTM的tensorflow實現。它與LSTM方程一致。但是在LSTM的tensorflow implementation中，我不知道如何定義所有這8個加權矩陣，因爲它們是在上面的第一個實現中定義的。

你能幫我一下嗎？

來源

2016-08-04 Gary Grey

此[教程]（https://www.tensorflow.org/versions/r0.10/tutorials/recurrent/index.html）可能有幫助 –

第一件事第一件事：如果仔細觀察，總共不會有8個矩陣，但總共有14個矩陣。用於Input Gate, Forget Gate, Cell State and Output State的W，U（參數矩陣）和b（偏向量）的4×3矩陣。另外，dense layer還有兩個矩陣W和b。

現在來談談實際問題，我推測你想知道這些矩陣是如何在Tensorflow中初始化的。

我在回答Tensorflow v1.2的問題。

快速答案：使用TF-api for LSTM具有稱爲initializer參數用於初始化權重和投影矩陣。

默認情況下，偏置向量初始化爲零向量，並且內核初始化使用均勻分佈隨機初始化。

現在來看看W和b在哪裏使用，你需要深入挖掘代碼。我將爲此提供幾個檢查點。

方法調用來評估乘法：https://github.com/tensorflow/tensorflow/blob/3686ef0d51047d2806df3e2ff6c1aac727456c1d/tensorflow/python/ops/rnn_cell_impl.py#L576

lstm_matrix = _linear([inputs, m_prev], 4 * self._num_units, bias=True)
實際計算：https://github.com/tensorflow/tensorflow/blob/3686ef0d51047d2806df3e2ff6c1aac727456c1d/tensorflow/python/ops/rnn_cell_impl.py#L1051

weights = vs.get_variable( _WEIGHTS_VARIABLE_NAME, [total_arg_size, output_size], dtype=dtype, initializer=kernel_initializer)

這裏。代替4個獨立的乘法，執行單個乘法，然後矩陣被分成4部分。

所以，簡而言之，Tensorflow自動執行初始化你。如果您不想使用默認初始值設定項，則您有靈活性來提供其他選項。

來源

2017-08-18 10:29:25 user3480922

張量流這兩種LSTM實現有什麼區別，如何初始化LSTM的8個權矩陣？

回答

相關問題