0
我正在嘗試在我的阿拉伯文字上使用StringToWordVector
過濾器,並且我想要移除英文字母和數字以及表情符號「我的數據是推文」並且我想要只保留阿拉伯文字。 有誰知道如何用StringToWordVector
過濾器做到這一點? 順便說一句,我使用Weka庫的Java。如何使用StringToWordVector過濾器從阿拉伯文字中刪除英文字母
我正在嘗試在我的阿拉伯文字上使用StringToWordVector
過濾器,並且我想要移除英文字母和數字以及表情符號「我的數據是推文」並且我想要只保留阿拉伯文字。 有誰知道如何用StringToWordVector
過濾器做到這一點? 順便說一句,我使用Weka庫的Java。如何使用StringToWordVector過濾器從阿拉伯文字中刪除英文字母
您正在使用Java,因此請使用簡單的字符串操作來簡化它。
要刪除拉丁文字母和數字(其中英語使用):
String cleaned = input.replaceAll("[a-zA-Z0-9]", "");
的「表情」的定義是鬆散的,但他們也刪除嘗試:
String cleaned = input.replaceAll("[a-zA-Z0-9]|[:;]-?[()ODp]", "");
感謝您的答覆,我會試試這個,但是因爲我必須在清理完成之後在訓練數據集上構建分類器,這是從「實例」類型中清除的,我該怎麼做? –