我想知道哪些可以幫助我從文本中提取語義特徵的開放源代碼工具(用於java/python)&。語義特徵的例子是形容詞 - 名詞比率,特定的詞性標籤序列(形容詞後面跟着名詞:adj | nn)等等。文體特徵的例子是獨特詞語的數量,代詞數量等。目前,我只知道Word to Web Tools,它將文本塊轉換爲基本向量空間模型。從文本中提取語義/文體特徵
我知道一些文本挖掘包,比如GATE,NLTK,Rapid Miner, Mallet和 MinorThird的。但是,我找不到適合我的任務的機制。
問候,
--Denzil
機Amac,感謝您的答覆! 「向量空間模型」雖然是一個非常健壯的模型,但它是一個原始模型,更多依賴於統計數據。我想使用語義知識從概念等文本中實現更復雜的模型。博客文章可以幫助我使用Lucene提取一系列POS模式,但是像NLTK這樣的更輕量級的包(當然使用正則表達式)可以幫助我執行相同的任務。感謝您將我指向Semantic Vectors軟件包。雖然它不直接幫助我完成任務,但我會考慮將它用於其他任務。 – Dexter 2010-06-29 11:22:54