您使用哪些工具分析文本？

我需要一些靈感。對於一個愛好項目，我正在玩內容分析。我基本上試圖分析輸入以將其與主題地圖相匹配。您使用哪些工具分析文本？

例如：

「在伊拉克問題上的方式」>歷史，中東
「Halloumni」>食品，中東
「寶馬」>德國，汽車
「奧巴馬「>美國
」黑斑羚「>美國，汽車
」柏林牆「>歷史，德國
」 Bratwu RST」>食品，德國
‘漢堡’>食品，美國
...

我一直在閱讀了很多關於分類，最後，不管我讀的結論是，所有的人標籤不同的，因此係統必然會失敗。

我想到了標記化輸入和停止詞彙列表，但他們當然需要大量的工作來構建和構建。建立單詞和主題之間的相關鏈接看起來很累，也永遠不會因爲你處理的任何語言而產生，它非常豐富，大多數語言也很大程度上依賴於上下文。更不用說維護它了。

我想我需要拿出東西聰明和訓練我想讓它能夠猜測的主題。有點像Eliza bot。

無論如何，我不認爲有些東西可以開箱即用，但是沒有人有任何技術指導或示例用於分析輸入以便提取含義？

來源

2009-05-28 Till

Hiya。我首先要看OpenCalais以找到文本或輸入內的實體。這很棒，我自己也用了很多（來自路透社的人）。

之後，您可以進一步分析文本，創建實體和單詞之間的關聯。我可能會在WordNet之類的東西中查找它們，並嘗試對它們進行分類，甚至自動生成一些與您嘗試映射的域相匹配的本體。至於如何把它們放在一起，你可以做很多事情;上面的或者兩遍或三遍的模型試圖找出什麼詞是平均的。或者，如果您控制輸入，則編制一種更易於解析的格式，或者沿着murky path of NLP（這很有趣）。

或者你可以看看類似於Jena的東西來解析任意的RDF片段，儘管我不喜歡RDF前提（我是一個Topic Mapper）。我編寫了一些在WikiPedia中查找單詞或短語或名稱的內容，並根據WikiPedia頁面中的語義對其命中率進行評分（如果需要，我可以更詳細地告訴你，但是它的工作起來不是很有趣你自己想出一些比我更好的東西嗎？:)，即。鏈接的數量，SeeAlso的數量，文本的數量，討論頁面的大小等。

多年來我寫過很多東西（甚至在PHP和Perl中;請看Robert Barta's Topic Maps stuff on CPAN，尤其是TM模塊一些踢屁股的東西），從引擎到解析器到中間的奇怪事物。將單詞和短語分開的關聯數組，創建累積直方圖以將其組件排序等等。這些都是有趣的東西，但對於收縮包裝的工具，我不太確定。每個人的目標和需求似乎都不同。這取決於你想成爲多麼複雜和複雜。

無論如何，希望這會有所幫助。乾杯! :)

來源

2009-05-28 23:50:52 AlexanderJohannesen

我想我嘗試了多次註冊。他們仍然欠我一個密碼。但我想我會再試一次，讓你知道它是如何結果。非常感謝！ – Till 2009-05-30 16:59:35

聽起來就像您正在尋找貝葉斯網絡實施。你可以通過使用類似Solr的東西。

也檢出CI-Bayes。約瑟夫奧廷格在今年早些時候在服務器網上寫了關於它的an article。

來源

2009-05-28 23:05:35 cwash

你能指出一些關於Solr的文檔來強調這個特性嗎？我找不到任何文件。 – Till 2009-05-30 17:01:39

Solr實際上是一個企業級搜索服務器（有點類似於Google Search Appliance），但是您所描述的內容與我的分面搜索功能相似。檢查了一些更多的信息：http://people.apache.org/~hossman/apachecon2006us/faceted-searching-with-solr.pdf – cwash 2009-05-30 22:28:25

SemanticHacker正是你想要的，開箱即用，並且有一個友好的API。短語短語有些不準確，但對於長篇短文來說是完美的。

「在伊拉克問題上的方式」>社會/問題/戰爭與衝突/具體衝突
「Halloumni」> N/A
「寶馬」>娛樂/摩托車/品牌和型號
「奧巴馬」>社會/政治/保守主義
「黑斑羚」>娛樂/汽車/品牌和型號/雪佛蘭
「柏林牆」>區域/歐洲/德國/美國
「Bratwurst」>家居/烹飪/肉類
「Cheeseburger」>家居/烹飪/食譜集合;地區/北美洲/美國/馬里蘭州/當地

來源

2009-05-29 20:41:10 apostlion

您使用哪些工具分析文本？

回答

相關問題