我需要將lucene的StandardTokenizer改編爲關於twitter數據的一些特殊用途。目前,我使用StandardTokenizer來標記一些推文,我想工作。它工作得很好,但現在我想擴展行爲(例如也考慮#hashtags和@somebody,考慮笑臉:),刪除網址,...)。lucene:將StandardTokenizer改編爲Twitter數據
有人可以告訴我 - 或者甚至給我一個方向 - 我該如何輕鬆做到這一點?我知道,寫我自己的標記生成器將是最好的選擇,但我很新的Lucene的,我不知道如何下手......
我希望有人能幫助我:)
最佳, Michael
非常感謝。那正是我一直在尋找的東西。 – Michael