2012-09-06 35 views
13

先達對不起,我不是那麼完美的英語...我是來自德國;)列表 - 哪一個你推薦

所以,我的一個研究項目(學士論文)我需要分析關於某些公司和品牌的推特情緒。爲此,我需要編寫我自己的程序/使用某種經過修改的開源代碼(沒有API) - 我需要了解發生的事情)。

下面你會找到我發現的一些NLP應用程序的列表。我現在的問題是你會推薦哪一種方法?哪一個不需要長時間調整代碼?

例如:當我爲音樂播放器> iPod <進行屏幕截圖時,有人寫道:「這是一個糟糕的一天,但至少我的iPod讓我開心」或者更難:「這是一個糟糕的一天,但至少我的iPod彌補它「

哪個軟件足夠聰明,以瞭解專注於iPod而不是天氣?

另外哪些軟件是可擴展的/資源高效的(我想分析多個推文並且不想花費數千美元)?

機器學習和數據挖掘

Weka中 - 是的機器學習算法用於數據挖掘的集合。它是最流行的文本分類框架之一。它包含各種算法的實現,包括樸素貝葉斯和支持向量機(支持向量機,列於SMO下)[注:其他常用的非Java SVM實現是SVM-Light,LibSVM和SVMTorch]。一個相關的項目是Kea(關鍵詞提取算法),一種用於從文本文檔中提取關鍵詞的算法。

Apache Lucene Mahout - 一個孵化器項目,用於在Hadoop map-reduce框架之上創建高度可擴展的通用機器學習算法分佈式實現。

NLP工具

LingPipe - (不是技術上的「開源,見下文)別名 - 我的Lingpipe是Java工具對文本的語言處理,包括實體提取,詞性標註一套房(POS ),聚類,分類等...它是工業中最成熟和最廣泛使用的開源NLP工具包之一。它以速度,穩定性和可擴展性而聞名。其最好的功能之一是廣泛收集精心編寫的教程,以幫助您入門。他們有一系列的競爭鏈接,包括學術和工業工具。一定要看看他們的博客。 LingPipe是在免版稅的商業許可下發布的,其中包含源代碼,但它在技術上不是「開源」。

OpenNLP - 舉辦各種基於java的NLP工具,執行判決檢測,標記化,部分詞性標註,組塊和語法分析,命名實體檢測,並使用Maxent模型機器學習聯合引用分析包。

斯坦福分析器和詞性標註(POS)標記 - 用於斯坦福NLP組的句子分析和詞性標註的Java包。它具有概率自然語言分析器的實現,高度優化的PCFG和詞法化的依賴分析器,以及詞彙化的PCFG分析器。它有一個完整的GNU GPL許可證。

OpenFST - 用於處理加權有限狀態自動機的包。這些經常被用來表示一個概率模型。它們用於爲語音識別,OCR糾錯,機器翻譯和各種其他任務建模文本。該圖書館由谷歌研究和紐約大學的貢獻者開發。這是一個C++庫,其目的是快速和可擴展。

NTLK - 自然語言工具包是教學和研究分類,聚類,詞性標註和解析,以及更多的工具。它包含一組用於實驗的教程和數據集。它由墨爾本大學的Steven Bird撰寫。

Opinion Finder - 一個系統,執行主觀性分析,自動識別意見,情緒,猜測和其他私人狀態何時出現在文本中。具體而言,OpinionFinder旨在確定主觀句子和標記在這些句子的主觀性的各個方面,包括主體和詞語包括在表達的正或負情緒短語的源(支架)。

Tawlk/osae - 一個用於社會文本情感分類的python庫。最終目標是建立一個簡單的「正常工作」的圖書館。它應該有一個容易進入的障礙並被徹底記錄。我們已經使用禁用詞與收集negwords.txt和poswords.txt

GATE鳴叫過濾來達到的最佳精度 - GATE是15歲以上,是涉及人類語言所有類型的計算任務的運行。 GATE擅長對各種形狀和尺寸的文本進行分析。從大公司到小創業公司,從€多萬美元的研究財團本科項目,我們的用戶社區是全球最大和最多樣化的任何這種類型的系統,並在所有的傳播,但continents1之一。

textir - 一套文本和情感挖掘工具。這包括「mnlm」功能,對稀疏多項Logistic迴歸,「請」,一個簡潔的偏最小二乘法程序,和「主題」功能,在潛在主題模型有效估計和尺寸選擇。

NLP工具包 - 朱莉實驗室這裏提供了一個全面的NLP工具套件進行語義搜索,信息提取和文本挖掘的應用目的。我們大部分不斷擴展的工具套件都基於機器學習方法,因此獨立於域和語言。

...

附註:您是否會推薦Twitter流媒體或獲取API?

至於我,我Python和Java的粉絲;)

非常感謝您的幫助!

回答

3

我不知道我能有多大幫助,但我以前用手工卷制的NLP工作。想到幾個問題 - 並非所有的產品都是語言不可知的(人類語言,而不是計算機語言)。如果您打算分析德語推文,選擇的產品能夠處理德語是非常重要的。很明顯,我知道,但容易忘記。然後就是這樣的事實,它是縮寫和首字母縮略詞的嘰嘰喳喳,並且語言結構受到字符限制的限制,這意味着語法並不總是匹配預期的語言結構。

在英語中,如果您需要編寫自己的代碼,可以簡化從句子中拉名詞。專有名詞有首字母大寫,一串這樣的詞(可能包括「of」)是一個名詞短語的例子。以「a/an/my/his/hers/the/this/these/those」爲前綴的詞將成爲形容詞或名詞。不幸的是,後來變得更加困難。

有幫助識別複數的規則,但也有很多例外。我在這裏談論的是英語,當然,我說得很差的德語並不能幫助我理解語法恐怕。