列表 - 哪一個你推薦

先達對不起，我不是那麼完美的英語...我是來自德國;）列表 - 哪一個你推薦

所以，我的一個研究項目（學士論文）我需要分析關於某些公司和品牌的推特情緒。爲此，我需要編寫我自己的程序/使用某種經過修改的開源代碼（沒有API） - 我需要了解發生的事情）。

下面你會找到我發現的一些NLP應用程序的列表。我現在的問題是你會推薦哪一種方法？哪一個不需要長時間調整代碼？

例如：當我爲音樂播放器> iPod <進行屏幕截圖時，有人寫道：「這是一個糟糕的一天，但至少我的iPod讓我開心」或者更難：「這是一個糟糕的一天，但至少我的iPod彌補它「

哪個軟件足夠聰明，以瞭解專注於iPod而不是天氣？

另外哪些軟件是可擴展的/資源高效的（我想分析多個推文並且不想花費數千美元）？

機器學習和數據挖掘

Weka中 - 是的機器學習算法用於數據挖掘的集合。它是最流行的文本分類框架之一。它包含各種算法的實現，包括樸素貝葉斯和支持向量機（支持向量機，列於SMO下）[注：其他常用的非Java SVM實現是SVM-Light，LibSVM和SVMTorch]。一個相關的項目是Kea（關鍵詞提取算法），一種用於從文本文檔中提取關鍵詞的算法。

Apache Lucene Mahout - 一個孵化器項目，用於在Hadoop map-reduce框架之上創建高度可擴展的通用機器學習算法分佈式實現。

NLP工具

LingPipe - （不是技術上的「開源，見下文）別名 - 我的Lingpipe是Java工具對文本的語言處理，包括實體提取，詞性標註一套房（POS ），聚類，分類等...它是工業中最成熟和最廣泛使用的開源NLP工具包之一。它以速度，穩定性和可擴展性而聞名。其最好的功能之一是廣泛收集精心編寫的教程，以幫助您入門。他們有一系列的競爭鏈接，包括學術和工業工具。一定要看看他們的博客。 LingPipe是在免版稅的商業許可下發布的，其中包含源代碼，但它在技術上不是「開源」。

OpenNLP - 舉辦各種基於java的NLP工具，執行判決檢測，標記化，部分詞性標註，組塊和語法分析，命名實體檢測，並使用Maxent模型機器學習聯合引用分析包。

斯坦福分析器和詞性標註（POS）標記 - 用於斯坦福NLP組的句子分析和詞性標註的Java包。它具有概率自然語言分析器的實現，高度優化的PCFG和詞法化的依賴分析器，以及詞彙化的PCFG分析器。它有一個完整的GNU GPL許可證。

OpenFST - 用於處理加權有限狀態自動機的包。這些經常被用來表示一個概率模型。它們用於爲語音識別，OCR糾錯，機器翻譯和各種其他任務建模文本。該圖書館由谷歌研究和紐約大學的貢獻者開發。這是一個C++庫，其目的是快速和可擴展。

NTLK - 自然語言工具包是教學和研究分類，聚類，詞性標註和解析，以及更多的工具。它包含一組用於實驗的教程和數據集。它由墨爾本大學的Steven Bird撰寫。

Opinion Finder - 一個系統，執行主觀性分析，自動識別意見，情緒，猜測和其他私人狀態何時出現在文本中。具體而言，OpinionFinder旨在確定主觀句子和標記在這些句子的主觀性的各個方面，包括主體和詞語包括在表達的正或負情緒短語的源（支架）。

Tawlk/osae - 一個用於社會文本情感分類的python庫。最終目標是建立一個簡單的「正常工作」的圖書館。它應該有一個容易進入的障礙並被徹底記錄。我們已經使用禁用詞與收集negwords.txt和poswords.txt

GATE鳴叫過濾來達到的最佳精度 - GATE是15歲以上，是涉及人類語言所有類型的計算任務的運行。 GATE擅長對各種形狀和尺寸的文本進行分析。從大公司到小創業公司，從€多萬美元的研究財團本科項目，我們的用戶社區是全球最大和最多樣化的任何這種類型的系統，並在所有的傳播，但continents1之一。

textir - 一套文本和情感挖掘工具。這包括「mnlm」功能，對稀疏多項Logistic迴歸，「請」，一個簡潔的偏最小二乘法程序，和「主題」功能，在潛在主題模型有效估計和尺寸選擇。

NLP工具包 - 朱莉實驗室這裏提供了一個全面的NLP工具套件進行語義搜索，信息提取和文本挖掘的應用目的。我們大部分不斷擴展的工具套件都基於機器學習方法，因此獨立於域和語言。

...

附註：您是否會推薦Twitter流媒體或獲取API？

至於我，我Python和Java的粉絲;）

非常感謝您的幫助！

來源

2012-09-06 Chriswede

我不知道我能有多大幫助，但我以前用手工卷制的NLP工作。想到幾個問題 - 並非所有的產品都是語言不可知的（人類語言，而不是計算機語言）。如果您打算分析德語推文，選擇的產品能夠處理德語是非常重要的。很明顯，我知道，但容易忘記。然後就是這樣的事實，它是縮寫和首字母縮略詞的嘰嘰喳喳，並且語言結構受到字符限制的限制，這意味着語法並不總是匹配預期的語言結構。

在英語中，如果您需要編寫自己的代碼，可以簡化從句子中拉名詞。專有名詞有首字母大寫，一串這樣的詞（可能包括「of」）是一個名詞短語的例子。以「a/an/my/his/hers/the/this/these/those」爲前綴的詞將成爲形容詞或名詞。不幸的是，後來變得更加困難。

有幫助識別複數的規則，但也有很多例外。我在這裏談論的是英語，當然，我說得很差的德語並不能幫助我理解語法恐怕。

來源

2012-09-07 02:29:39

列表 - 哪一個你推薦

回答

相關問題