2009-08-22 59 views
1

我正在做一個java項目,我必須處理一個wikipedia轉儲文件。我正在尋找一個圖書館來提取維基百科文章中的關鍵詞...基本上我想讀取維基百科xml轉儲中的每個標籤頁,並將其與主題和類別列表進行比較,如果它是正確的,選擇它並添加到我的結果。我對閱讀轉儲或撰寫維基百科結果不感興趣,只想瞭解任何讓我按照維基百科文章的標題和文本中的主題搜索的圖書館...例如...如果輸入是「狗」我想要關於狗的維基百科文章,如果有可能在狗類別下的任何頁面。按主題搜索並從維基百科中提取關鍵字

如果一個用於通用目的而不是爲維基百科指定的庫不重要。我需要把wikitext作爲參數,並收到關鍵字列表,包括類別...我發現一些維基百科庫可以正常工作,如Wikipedia-MinerJava Wikipedia Library,但首先我需要安裝mysql,我想分析該文本沒有保存到數據庫中。

任何形式的幫助或建議都很受歡迎。 :)

回答