2010-04-10 77 views
3

這是一個「大」的問題,我不知道如何開始,所以我希望你們中的一些人能給我一個方向。如果這不是一個「好」的問題,我會以道歉的方式結束這個話題。如何用R分析維基百科文章的數據庫?

我想瀏覽一下維基百科的數據庫(比方說英文版),然後做統計。例如,我感興趣的是維基百科在每個時間點有多少個活躍的編輯器(應該定義這些編輯器)(比如說過去兩年)。

我不知道如何建立這樣一個數據庫,如何訪問它,如何知道它有哪些類型的數據等等。所以我的問題是:

  1. 我需要什麼工具(除了基本的R)? MySQL在我的電腦上? RODBC數據庫連接?
  2. 你如何開始計劃這樣一個項目?
+0

維基百科「數據庫」是否作爲數據庫轉儲? – SeanJA 2010-04-10 21:13:51

+0

嗨好像,它會出現這麼... – 2010-04-11 00:48:23

回答

8

你會想從這裏開始: http://en.wikipedia.org/wiki/Wikipedia:Database_download

,將帶你到這裏: http://download.wikimedia.org/enwiki/20100312/

而且你可能想要的文件是:

# 2010-03-17 04:33:50 done Log events to all pages. 
    * This contains the log of actions performed on pages. 
    * pages-logging.xml.gz 1.0 GB 

http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz

你會然後將xml導入到MySQL中。生成每天,每週,每年等用戶的直方圖不需要R.您可以通過單個MySQL查詢來完成此操作。喜歡的東西:

select DAYOFYEAR(wiki_edit_timestamp), count(*) 
from page_logs 
group by DAYOFYEAR(wiki_edit_timestamp) 
order by DAYOFYEAR(wiki_edit_timestamp); 

(我不知道他們的實際模式是什麼,但它會是類似的東西。)

你會碰到的問題,沒有懷疑,但你也會學到很多東西。祝你好運!

+0

感謝羅傑的開局!所以現在我的下一步是如何設置MySQL,然後如何導入它。謝謝:) – 2010-04-11 00:47:08

5

您可以與wikipedia database dumps

+0

夢幻般的答案卡斯滕,非常感謝! – 2010-04-11 16:00:02