2017-09-05 103 views
-2

假設我在csv文件中有多個句子(不是段落),比如句子A,B,C等。我想用N-gram(Unigrams或Bigrams)來計算每個句子中的單詞矩陣。這樣我就可以輕鬆地從我的矩陣中爲每個句子得到一個計算的N-gram向量。我該怎麼做? PS:我已經嘗試了幾種方法,但是他們都是爲一個句子或整個段落計算N-gram!使用Ngram-Python創建多個句子的單詞計數矩陣

+1

的可能的複製[什麼是NGRAM計數,以及如何使用NLTK實現?(https://stackoverflow.com/questions/12821201/what-are-ngram-counts-and-how-to-implement -using-nltk) –

+0

@YuvalRaz已經在鏈接中回答的問題與我的不同:) –

回答

0

,你可以嘗試用熊貓的數據幀,並使用在每一行「應用」

import pandas as pd 

x = pd.read_csv("the_santances.csv") 

x.apply("the function that calculates the ngram") 
+0

這沒有奏效,但我解決了這個問題 –