2011-01-22 103 views
0

我正在構建一個搜索引擎,並對其進行測試,它需要更多文章。他們的最佳來源是維基百科。如何提取和導入維基百科頁面?

我已經搜索了一些轉儲,但有些是XML(我有麻煩導入),有些沒有內容。

那麼,如何獲得轉儲,最好是以MySQL的形式。它必須是非英語語言。

有什麼想法?

+0

你能舉一個內容格式的小例子嗎? – Eray 2011-01-22 22:55:17

+0

如果你有來自維基百科的sql轉儲,你將擁有一個維基百科的克隆,你需要一個wiki軟件來獲得任何看起來像文章的東西。有apis可用,我強烈建議從api或許多可用的結構化數據選項之一導入。 – mirzu 2011-01-22 23:01:03

回答

3

Here是解釋如何將維基百科導入Solr的頁面。

Here是將維基百科轉儲加載到Mysql以運行本地克隆的分步解釋。