2017-10-16 167 views
0

我想弄清楚從大批文檔中分別提取關鍵字和概念的正確方法。在DW上,建議使用IBM Watson-Knowledge Studio。 Knowledge Studio鏈接到發現,我似乎無法在發現API參考中找到如何單獨提取關鍵字和概念。我可以輕鬆查看宏觀層面的概念,但是我需要分別爲每個文件提供關鍵字和概念。我的所有文件都已上傳到Knowledge Studio。此外,我還將所有內容上傳到Discovery。我一直無法提取每個文件的信息。 「API參考指南」不包括將信息提取到已上載文件的個人級別。上週,我提交了一張支持票,回覆是在Stackoverflow上發佈問題以獲得更多支持。在大批文件中分別爲每個文件查找關鍵字和概念的正確方法是什麼?發現或NLU?IBM Watson-提取關鍵字和概念

任何指導非常感謝。

回答

1

我認爲你應該嘗試Natural Language Understanding服務。這裏是一個演示,可以讓你分析文本和提取概念和關鍵字https://natural-language-understanding-demo.mybluemix.net/

我建議你先到read the documentation,然後看看API Reference,你會發現如何調用這個方法來提取基於不同語言的關鍵字和概念。

你需要做的是循環瀏覽你的文件,讀取內容然後發送給NLU。

下面是如何分析的文本中提取概念和關鍵字Node.js的一個例子:

const NaturalLanguageUnderstandingV1 = require('watson-developer-cloud/natural-language-understanding/v1.js'); 
const service = new NaturalLanguageUnderstandingV1({ 
    'username': '{username}', 
    'password': '{password}', 
    'version_date': '2017-02-27' 
}); 

const parameters = { 
    text: 'IBM is an American multinational technology company headquartered in Armonk, New York, United States, with operations in over 170 countries.', 
    features: { 
    keywords: { 
     emotion: true, 
     sentiment: true, 
     limit: 2 
    }, 
    concepts: { 
     limit: 3 
    } 
    } 
} 

service.analyze(parameters, (err, response) => { 
    if (err) 
    console.log('error:', err); 
    else 
    console.log(JSON.stringify(response, null, 2)); 
}); 
+0

我同意NLU將是首選。根據文件NLU不接受文件。只是原始文本,HTML和網址。這是一個小問題,因爲我想分析超過200個文檔。 – RileyZ71

+0

我已經更新了我的答案,提供了更多信息和代碼片段,以便您在Node.js中執行什麼操作 –