6
我有存儲在python字符串中的文本。識別文本中的重要單詞和短語
我想要的東西
- 要識別該文本的關鍵詞。
- 在該文本中識別N-gram(理想情況下不僅僅是雙克和三克)。
記住...
- 文字可能很小(如鳴叫大小)
- 文本可能是中間(如新聞文章尺寸)
- 文本可能大(如書籍或章節大小)
我有什麼
我已經使用nltk打破語料庫爲標記,並刪除停用詞:
# split across any non-word character
tokenizer = nltk.tokenize.RegexpTokenizer('[^\w\']+', gaps=True)
# tokenize
tokens = tokenizer.tokenize(text)
# remove stopwords
tokens = [w for w in tokens if not w in nltk.corpus.stopwords.words('english')]
我知道了BigramCollocationFinder和TrigramCollectionFinder什麼,我找了這兩個案件做exaclty。
問題
我需要的n-gram更高階的建議,提高了種是來自BCF和TCF和建議的最佳方式,找出最獨特的個體關鍵詞的結果。
非常感謝!
我希望在可能的情況下不要重新發明輪子(tf-idf I只能假設在nltk的某個地方完成,但我在計算鉤子時遇到了一些麻煩)。與N-grams類似,儘管我很快意識到如果我想要三克以上的車輪,那麼車輪並不一定能實現(並且,老實說,超過三克可能沒有用)。 – slifty
我相信這是根本。在處理語料庫時,計算tf,df可以快速完成,而數據庫可以幫助存儲倒排索引。更好的是,實現一個位置倒排索引。 N-gram已棄用:)。 – hymloth