Unicode具有字符類別。有些是字母數字。有些是標點符號。如何區分單詞字符和非單詞字符?
,如果我想知道一個詞是否屬於關鍵字或不
例如,
A,A,B,C,往往屬於話什麼。所以Ƈ,Ǝ,ǟ,所有的中文字都是。
這樣的句子
Hello World, I "like" (to) eat ƇƎǟ and 款開源 ©
有關鍵字:
Hello
World
I
like
to
eat
ƇƎǟ
款
開
源
這裏,(),©不是字的字符,因此應該只是被忽略和使用。
©也不算作標點符號。 '©'.IsPunctuation在vb.net中返回false,但我也想擺脫它。
現在我想製作一個程序,可以將句子拆分爲關鍵字。爲此,我需要知道哪些字符是單詞字符,哪些不是。
是否有一個vb.net函數呢?
我會避免這種情況。壓克力和漢字的數量太多了。 –
問題是關於Unicode,你的回答不是。哦,並且語法無效。 –