我想要得到tweet中沒有提到的詞(以@開頭)或標籤(以#開頭)。Python正則表達式來獲取tweet中所有不是@mention或#hashtag的單詞
我的代碼是這樣的:
import re
pattern=r'(?u)\b\w\w+\b'
pattern=re.compile(pattern)
pattern.findall('this is a tweet #hashtag @mention')
與此正則表達式的結果是 這是一個鳴叫包括hashtag提
,但我不希望包括hashtag和提的結果。 我想要得到的結果是:
這是一個鳴叫
請注意,我不能代替空格使用\ B的,因爲輸出 。這是一個鳴叫(注意。在開始時) 也應該是 [這是一個鳴叫] \ b強制一個詞的開始是任何非字母數字,但如果我使用\ s然後這將不會在結果。
充分利用@和#字符的前綴(可選)你的話,你申請 –
我給這個正則表達式正則表達式後,然後過濾輸出另一個不是我的功能(scikit-learn的tfidfvectorizer),所以我不能做任何post/pre處理,正則表達式應該完成這項工作。 – Ash