我得到了一組包含串聯詞,如以下字符串:「你的意思是」符號化一個連接字符串
longstring (two English words)
googlecloud (a name and an English word)
當我鍵入這些條款到谷歌,它承認的話(「長串」,「谷歌雲」)。我的應用程序需要類似的功能。
我研究了Python和ElasticSearch提供的選項。我發現的所有令牌化示例均基於空格,大寫,特殊字符等。
提供的字符串是英文的(但它們可能包含名稱),我的選項是什麼?它不一定要在特定的技術上。
我可以通過Google BigQuery完成此操作嗎?