2011-02-03 91 views
1

究竟我想要做的是:如何從維基百科中提取列表頁面的數據?

輸入:維基百科的XML轉儲

輸出

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/C_(programming_language)> . 

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Java_(programming_language)> . 

... 

.. 

. 

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/AdsML> . 

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Agricultural_Ontology_Service> . 

我們已經建立和定製:像這樣的三元組的列表dbpedia提取框架,但我認爲配置提取這些數據的框架很困難。我很震驚的事實,即提取框架沒有任何提取器!

+1

如果我正確地閱讀,我的理解是你正在批評*你自己的*「提取框架」,然後問如何更好地使用它?如果沒有這個框架的知識,或者你在尋找數據的地方,這個問題是不可能回答的! – 2011-02-03 12:51:42

+0

不,我們沒有提到dbpedia提取框架,我們只是添加了一個簡單的提取器 – 2011-02-03 13:13:33

回答

2

所有框架提取器都會在文章名稱或文章正文中查找特定的模式。如果您可以識別列表頁面中不存在的任何其他文章中的內容,那麼它將能夠創建一個...

否則,您可以使用頁面鏈接(頁面間鏈接)並過濾文章想。這可能會給你你想要的(有點)