4
我使用langdetect
來確定一組字符串的語言,我知道這些字符串可以是英文或法文。Python langdetect:只在一種語言或其他語言之間進行選擇
有時,langdetect
告訴我語言是羅馬尼亞語,因爲我知道這是一個法語字符串。
我該如何讓langdetect
只用英文或法文進行選擇,而不是所有其他語言?
謝謝!
我使用langdetect
來確定一組字符串的語言,我知道這些字符串可以是英文或法文。Python langdetect:只在一種語言或其他語言之間進行選擇
有時,langdetect
告訴我語言是羅馬尼亞語,因爲我知道這是一個法語字符串。
我該如何讓langdetect
只用英文或法文進行選擇,而不是所有其他語言?
謝謝!
我會做到這一點的方法是使用detect_langs
,它返回Language
對象與概率的列表,然後通過這個列表循環,返回語言,如果其中一個選項是英語或法語,或None
如果這情況並非如此。此功能適用於此目的:
from langdetect import detect_langs
def englishOrFrench(string):
res = detect_langs(string)
for item in res:
if item.lang == "fr" or item.lang == "en":
return item.lang
return None
print(englishOrFrench("Bonjour")) # fr
print(englishOrFrench("The quick brown fox")) # en
print(englishOrFrench("Hallo, mein Freund")) # None
lang detect kinda .. sucks。 「38 HewcnonHe,!Me PlrIM HellaA.ne * aulee kicnon} le,wle npeAy(MOTpeHHbix AorOBOpOM」被檢測爲en – thang
@thang您期望從完美工具中得到什麼樣的輸出?langdetect會嘗試將每個字符串適合某種語言如果你用它來檢測無意義的字符串,當然會中斷。 – Jeyekomon
我認爲這是從俄羅斯的pdf文檔複製的。 – thang