2012-08-04 46 views
0

我需要某種數據集,其中包含相關的項目。例如,flower具有相關的亞型:roses,violets等。這些亞型中的每一個都具有其自己的亞型。這可能是在語義搜索引擎中使用的相關項目的圖表等。語義相關的數據集

是否有任何地方有這樣的數據集(最好是有圖像)?

+0

爲什麼您要搜索?你要實施的地方? – 2012-08-04 19:00:53

+0

我想在圖表中顯示相關數據。例如,'flower'是一個位於中心的節點,相關節點圍繞它與邊相連。 – 2012-08-04 19:49:33

回答

2

Wordnet將是一個好的開始。 你可以從here免費獲得。

Conceptnet是另一個偉大的本體論。它的質量較低,但概念數量更多。 這裏的概念網頁flower

我建議檢查的第三個來源是維基百科的跨文章鏈接。

1

擴展到上面由Sagie提到的維基百科上,DBPedia是一個項目,它已經將維基百科的結構化數據提取到數據集中。他們提到他們的數據集有377萬個「事物」和4億個事實。還有不同語言的本地化信息:

完整DBpedia的數據集配10.3 萬元的多達111種不同的語言獨特的東西標籤和摘要; 800萬 鏈接到圖像和2440萬HTML鏈接到外部網頁; 2720萬數據鏈接到外部RDF數據集,5580萬鏈接到維基百科類別和820萬YAGO類別。 數據集由18.9億條信息(RDF三元組) 組成,其中4億是從英文版的 維基百科中提取的,其中14.6億是從其他語言版本提取的, 和約2700萬是與外部RDF的數據鏈接數據集。

他們的數據集可通過SPARQL進行查詢。 An example they give適用於200萬人口的前20個城市:

SELECT ?subject ?population WHERE { 
?subject rdf:type <http://dbpedia.org/ontology/City>. 
?subject <http://dbpedia.org/ontology/populationUrban> ?population. 
FILTER (xsd:integer(?population) > 2000000) 
} 
ORDER BY DESC(xsd:integer(?population)) 
LIMIT 20