2017-04-14 60 views
0

如何刪除標籤,用戶提到&推文網址。 Twitter4j庫(情感分析)不能與這些噪聲詞正常工作如何從推文中刪除hashtag,用戶提及和URL。 Twitter4j庫(情感分析)無法正常使用這些噪音字

舉例: 鳴叫:你好偉大今天早上#summermorning @evilpriest @holysinner https://goo.le/asxmo/dataload .......

應該看起來像 - 你好,今天早上好,早上好,

在twitter4J本身有沒有什麼方法或工具可用,或者我們需要寫自己的?請指導。

+0

你需要編寫自己的方法 – FeanDoe

回答

0

使用正則表達式在通過情感分析管道解析句子之前過濾#es! 使用此:

String withoutHashTweet = originalTweet.replaceAll("[#]", ""); 

所以「你好偉大今天早上#summermorning @evilpriest @holysinner」應該返回:「你好大今天上午summermorning @evilpriest @holysinner」

同樣與替換哈希代碼@刪除相應的標誌

0

類似的東西:

let tweet = "@arthurlacoste check this link : http://lit.ly/hugeLink ! so #nsfw"; 

tweet = tweet.replace(/(?:https?|ftp):\/\/[\n\S]+/g, '') // remove links 
     //.replace(/\#\w\w+\s?/g, '') remove hashtags words 
     .replace('#', '') // remove hashtags only 
     .replace(/\@\w\w+\s?/g, ''); // remove mentions 

console.log(tweet); 

// output : "check this link : ! so nsfw"