0

我想根據報告中提到的症狀對醫療報告進行分類。我正在做的步驟是神經網絡性能優化

1)從每個醫療報告中提取症狀。

2)創建一組從所有醫療報告中提取的所有症狀,總而言到目前爲止是3700

3)創建一組診斷和在這些放電摘要中提到的所有的疾病,總而言到目前爲止是1500.

4)現在我遍歷所有的醫療報告,併爲每個報告和它的診斷創建一個熱矢量。我有5000個文件。

對於症狀,我得到一個矩陣5000 X 3700 其中每行代表一個文檔,每列顯示一個症狀。如果症狀是本文檔中,該列的值爲1,否則其值爲爲零的症狀是

enter image description here

對於診斷,我得到的5000 X 1500

enter image description here一個矩陣

I am using a backward propagating neural network for training. The network has 3700 input neurons, 1 hidden layer and 1500 output neurons. 

此處使用的代碼http://jrmeyer.github.io/tutorial/2016/02/01/TensorFlow-Tutorial.html用於創建分類器。

的問題是,不管我有多麼訓練它(到目前爲止,我已經嘗試了25000個時期),我變得很糟糕的結果,

輸出有160多個標籤,而最大概率值(1)我期待着5個標籤。

有什麼我可能做錯了,或者我該怎麼做才能改善結果。

更新:我試圖用最少的數據(100個文檔和85000個時代)來測試網絡。

可能導致問題的一個問題是,從每個文檔中,最多提取15-20個術語,所以一個熱矢量有二十個1和3680個0。有人可以建議,如果這可能是問題嗎?

回答

1

沒有足夠的細節來理解你的問題和實現 ,但是一個好的起點將幫助你理解你是否有更多的技術問題(錯誤,網絡架構等)或數據問題是創建你知道應該適合你的模型的合成數據(假的一些疾病,每個都有一系列的症狀)

如果模型沒有給出所需的結果,這可能是一個技術問題。如果是這樣,它更可能是一個數據問題:也許你的數據太嘈雜,或者底層模型更復雜,或者你沒有足夠的數據。

+0

感謝您的性反應,其實我已經與1000個文檔定製的數據測試。另外我也更新了這個問題。 – Shahzeb

+0

你可以添加你的網絡結構嗎? –

+0

我已經使用了本教程中的代碼http://jrmeyer.github.io/tutorial/2016/02/01/TensorFlow-Tutorial.html唯一的chage是我使用多個標籤而不是2個標籤。 – Shahzeb

0

這裏有幾件事情,你可以嘗試(儘管這並不能保證提高性能):

  1. 情節學習曲線來決定最佳的學習率,L2等處罰
  2. 生成合成數據
  3. 增加深度網絡的