這是一個「大」的問題,我不知道如何開始,所以我希望你們中的一些人能給我一個方向。如果這不是一個「好」的問題,我會以道歉的方式結束這個話題。如何用R分析維基百科文章的數據庫?
我想瀏覽一下維基百科的數據庫(比方說英文版),然後做統計。例如,我感興趣的是維基百科在每個時間點有多少個活躍的編輯器(應該定義這些編輯器)(比如說過去兩年)。
我不知道如何建立這樣一個數據庫,如何訪問它,如何知道它有哪些類型的數據等等。所以我的問題是:
- 我需要什麼工具(除了基本的R)? MySQL在我的電腦上? RODBC數據庫連接?
- 你如何開始計劃這樣一個項目?
維基百科「數據庫」是否作爲數據庫轉儲? – SeanJA 2010-04-10 21:13:51
嗨好像,它會出現這麼... – 2010-04-11 00:48:23