2013-08-28 76 views
1

我從pdf中提取了希臘語文本,它提供了HTML輸出: μεταξ~ 最後一個字符是古希臘字體。 有趣這裏要指出的是,如果我在MS字中查看它,並選擇最後一個字符爲 ,那麼字符作爲「OldGreekRoman」比該字符現在可以看到原始形式。古希臘羅馬字符

這是莫名其妙的。請幫助。

我需要的最後一個字符

+0

〜(波浪號)是所需的字符。 –

+0

不,問題中的字符是U + 02DC SMALL TILDE。 –

回答

1

沒有原件 Unicode:該字符最初是符號字體中的自定義字形。它沒有語義含義 - 就像在Wingdings看起來像一個和平標誌的字母'A'。

字形應該是什麼樣子?可能有也可能不是代表相同字母的Unicode字符。 可能可能創建從「OldGreekRoman」字體中的符號到Unicode等效字符的映射,或者該字體可能是Unicode中不存在的字符;沒有字體的副本我就說不出來。

+0

該字體的可下載鏈接是:http://www.vanderbilt.edu/AnS/religious_studies/SNTShome.htm –

+0

好吧,它看起來像是由可用Unicode編寫的擴展多邊形口音的預分解字形組成。例如,與拉丁語'a'相關的字形是'ᾇ',U + 1F87希臘小寫字母阿爾法與dasia和perispomeni和ypogegrammeni。它應該是一個簡單但漫長而無聊的任務,爲字體中的所有字形提供映射表。 – bobince

1

在你的問題中的字符序列的初始unicode:

μεταξ~

是:

  • 03BC希臘小LETTER MU
  • 03b5希臘小寫字母EPSILON
  • 03c4希臘小寫字母TAU
  • 03b1希臘小寫字母ALPHA
  • 03be希臘小寫字母十一
  • 02dc小TILDE

這最後一個字符不是特別的希臘。

這假定字符被正確地複製並粘貼到您的問題中。

1

從原始pdf複製字符並將其粘貼到this web app中,您將看到unicode代碼點是什麼。

3

雖然這是離題的方式,應該轉移到其他地方,但我無法抗拒回答這個問題的誘惑,即關於上下文的關於無效的信息,最可能的答案是小TILDE字符是字母U + 03CD希臘小字母UPSILON與TONOS,「Ð」的某些字符的結果。原因是「μεταξύ」是一個真正的希臘字。

+0

這是正確的,但有沒有任何正確的方法來獲得正確的unicode,即03cd不tilde –

+0

在MS Word中,您可以鍵入'u + 3cd',然後按Alt X獲得U + 03CD。 –