2017-10-19 104 views
0

爲了做一個關於字符識別的項目,我找到了一個我可以用作訓練集的數據庫。另一方面,即使給出了下面的說明,我也無法理解給定的格式。如何找出這種格式,我找不到進一步的幫助。瞭解這個字符數據庫格式

字段1-6以逗號分隔。源製品的


  1. ID號碼
  2. 2字節符號代碼(寫在十六進制,使用4個字節)的位圖
  3. 位圖的
  4. 字符寬度
  5. 位圖圖像的
  6. 字符高度,其中每個8位單位被寫爲0到255的小數
  7. 換行

下面附加了數據庫文件(Google驅動器)的鏈接。

https://drive.google.com/file/d/0B-WsCQkhd_1iUUtJdHg0R1hfTHM/view?usp=sharing

這將是很大的幫助,如果有人能想出這種格式呈現的方式。這實際上令我困惑。

回答

0

那麼,據我瞭解這種格式,每個字符描述需要一行(直到換行符號)。源製品的

  1. ID號碼
  2. 字節符號代碼(寫在十六進制,使用4個字節)的位圖的
  3. 字符高度
  4. 位圖的
  5. 字符寬度
  6. 位圖圖像,其中每個8-位單位被寫爲從0到255的小數 - 在這裏魔法開始。位圖圖像不僅是一個逗號分隔值,而且還包括所有值,直到符合換行。所以它會有很多逗號分隔值,您可以使用位圖高度和寬度值在行中進行劃分。

如果您在例如Notepad ++而不是stanart windows notepad中打開此文件,您將獲得更好的視圖(打開「顯示所有字符」以查看換行符)。

希望它能幫助你。

+0

謝謝你的迴應。但我仍然無法分解哪些列是爲什麼...比如哪一列爲高度,哪一列爲寬度,哪一列爲符號代碼等。 –

+0

1列必須是ID。 2-3可能是一個2字符的代碼,每列1字節,3 - 高度,4 - 寬度,我無法理解的下一列,但自身位圖數據可能從第15列開始,至少所有值在該列之後的範圍從0到255,每個值中的每一位代表一個像素(可能),我不確定第5-14列的目的是什麼。 –

+0

謝謝,高度和寬度,你的意思是第4和第5列的權利。 –