2009-05-28 58 views
3

我需要一些靈感。對於一個愛好項目,我正在玩內容分析。我基本上試圖分析輸入以將其與主題地圖相匹配。您使用哪些工具分析文本?

例如:

  • 「在伊拉克問題上的方式」>歷史,中東
  • 「Halloumni」>食品,中東
  • 「寶馬」>德國,汽車
  • 「奧巴馬「>美國
  • 」黑斑羚「>美國,汽車
  • 」柏林牆「>歷史,德國
  • 」 Bratwu RST」>食品,德國
  • ‘漢堡’>食品,美國
  • ...

我一直在閱讀了很多關於分類,最後,不管我讀的結論是,所有的人標籤不同的,因此係統必然會失敗。

我想到了標記化輸入和停止詞彙列表,但他們當然需要大量的工作來構建和構建。建立單詞和主題之間的相關鏈接看起來很累,也永遠不會因爲你處理的任何語言而產生,它非常豐富,大多數語言也很大程度上依賴於上下文。更不用說維護它了。

我想我需要拿出東西聰明和訓練我想讓它能夠猜測的主題。有點像Eliza bot

無論如何,我不認爲有些東西可以開箱即用,但是沒有人有任何技術指導或示例用於分析輸入以便提取含義

回答

2

Hiya。我首先要看OpenCalais以找到文本或輸入內的實體。這很棒,我自己也用了很多(來自路透社的人)。

之後,您可以進一步分析文本,創建實體和單詞之間的關聯。我可能會在WordNet之類的東西中查找它們,並嘗試對它們進行分類,甚至自動生成一些與您嘗試映射的域相匹配的本體。至於如何把它們放在一起,你可以做很多事情;上面的或者兩遍或三遍的模型試圖找出什麼詞是平均的。或者,如果您控制輸入,則編制一種更易於解析的格式,或者沿着murky path of NLP(這很有趣)。

或者你可以看看類似於Jena的東西來解析任意的RDF片段,儘管我不喜歡RDF前提(我是一個Topic Mapper)。我編寫了一些在WikiPedia中查找單詞或短語或名稱的內容,並根據WikiPedia頁面中的語義對其命中率進行評分(如果需要,我可以更詳細地告訴你,但是它的工作起來不是很有趣你自己想出一些比我更好的東西嗎?:),即。鏈接的數量,SeeAlso的數量,文本的數量,討論頁面的大小等。

多年來我寫過很多東西(甚至在PHP和Perl中;請看Robert Barta's Topic Maps stuff on CPAN,尤其是TM模塊一些踢屁股的東西),從引擎到解析器到中間的奇怪事物。將單詞和短語分開的關聯數組,創建累積直方圖以將其組件排序等等。這些都是有趣的東西,但對於收縮包裝的工具,我不太確定。每個人的目標和需求似乎都不同。這取決於你想成爲多麼複雜和複雜。

無論如何,希望這會有所幫助。乾杯! :)

+0

我想我嘗試了多次註冊。他們仍然欠我一個密碼。但我想我會再試一次,讓你知道它是如何結果。非常感謝! – Till 2009-05-30 16:59:35

0

聽起來就像您正在尋找貝葉斯網絡實施。你可以通過使用類似Solr的東西。

也檢出CI-Bayes。約瑟夫奧廷格在今年早些時候在服務器網上寫了關於它的an article

+0

你能指出一些關於Solr的文檔來強調這個特性嗎?我找不到任何文件。 – Till 2009-05-30 17:01:39

+0

Solr實際上是一個企業級搜索服務器(有點類似於Google Search Appliance),但是您所描述的內容與我的分面搜索功能相似。 檢查了一些更多的信息:http://people.apache.org/~hossman/apachecon2006us/faceted-searching-with-solr.pdf – cwash 2009-05-30 22:28:25

2

SemanticHacker正是你想要的,開箱即用,並且有一個友好的API。短語短語有些不準確,但對於長篇短文來說是完美的。

  • 「在伊拉克問題上的方式」>社會/問題/戰爭與衝突/具體衝突
  • 「Halloumni」> N/A
  • 「寶馬」>娛樂/摩托車/品牌和型號
  • 「奧巴馬」>社會/政治/保守主義
  • 「黑斑羚」>娛樂/汽車/品牌和型號/雪佛蘭
  • 「柏林牆」>區域/歐洲/德國/美國
  • 「Bratwurst」>家居/烹飪/肉類
  • 「Cheeseburger」>家居/烹飪/食譜集合;地區/北美洲/美國/馬里蘭州/當地