我想根據報告中提到的症狀對醫療報告進行分類。我正在做的步驟是神經網絡性能優化
1)從每個醫療報告中提取症狀。
2)創建一組從所有醫療報告中提取的所有症狀,總而言到目前爲止是3700
3)創建一組診斷和在這些放電摘要中提到的所有的疾病,總而言到目前爲止是1500.
4)現在我遍歷所有的醫療報告,併爲每個報告和它的診斷創建一個熱矢量。我有5000個文件。
對於症狀,我得到一個矩陣5000 X 3700 其中每行代表一個文檔,每列顯示一個症狀。如果症狀是本文檔中,該列的值爲1,否則其值爲爲零的症狀是
對於診斷,我得到的5000 X 1500
I am using a backward propagating neural network for training. The network has 3700 input neurons, 1 hidden layer and 1500 output neurons.
此處使用的代碼http://jrmeyer.github.io/tutorial/2016/02/01/TensorFlow-Tutorial.html用於創建分類器。
的問題是,不管我有多麼訓練它(到目前爲止,我已經嘗試了25000個時期),我變得很糟糕的結果,
輸出有160多個標籤,而最大概率值(1)我期待着5個標籤。
有什麼我可能做錯了,或者我該怎麼做才能改善結果。
更新:我試圖用最少的數據(100個文檔和85000個時代)來測試網絡。
可能導致問題的一個問題是,從每個文檔中,最多提取15-20個術語,所以一個熱矢量有二十個1和3680個0。有人可以建議,如果這可能是問題嗎?
感謝您的性反應,其實我已經與1000個文檔定製的數據測試。另外我也更新了這個問題。 – Shahzeb
你可以添加你的網絡結構嗎? –
我已經使用了本教程中的代碼http://jrmeyer.github.io/tutorial/2016/02/01/TensorFlow-Tutorial.html唯一的chage是我使用多個標籤而不是2個標籤。 – Shahzeb