2010-07-27 294 views
15

我在爲我的項目尋找Twitter或其他社交網站數據集。我目前有CAW 2.0 twitter數據集,但它只包含用戶的推文。我想要一個顯示朋友,追隨者等數量的數據。推特(社交網絡)數據集

它不一定是推特,但我更願意推特或臉書。我已經嘗試過infochimps,但顯然該文件不再可以下載用於推特。

有人可以給我很好的網站找到這種類型的數據集。我將把數據集提供給hadoop。

回答

7

請嘗試以下三個數據集:

包含大約97 milllion鳴叫:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

編者提示 :由於Twitter的請求將其刪除,因此上面以前鏈接的數據集不再可用。

包含4700萬個用戶的用戶圖形:

http://an.kaist.ac.kr/traces/WWW2010.html

隨着數據集包含網絡以及微博,但該數據是由滾雪球抽樣或收集的東西,因此朋友網絡是不一致的。它擁有大約1000萬條推文,您可以向研究人員發送更多數據。

http://www.public.asu.edu/~mdechoud/datasets.html

雖然看一下數據進行分發許可證。

希望這會有所幫助, 也可以告訴我用這個數據集計劃什麼樣的工作嗎? 我有幾個的Hadoop /豬腳本與數據集中使用

+0

不知道,但我會用它來爲我的機器學習班。 – denniss 2010-08-02 18:36:02

+1

@Akshay Bhat:他們似乎已經刪除了今天的數據集。你會碰巧知道可能有其他數據集嗎?謝謝! – Legend 2011-07-18 18:51:44

5

億個網頁被從Facebook提取: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

我不知道它們包含的內容,但你可以看看,現在看來,這很容易找到Torrent的網站。

你也可以使用Facebook API,但是如果你想要一個足夠大的數據集,你必須要求Facebook訪問它的權利。 它包含鏈接的朋友,喜歡,團體,...

+1

順便說一句,還有一個Twitter API。 – 2010-08-02 15:30:08

+0

是的,我看到了這一點。雖然 – denniss 2010-08-02 16:27:39

+0

感謝奇怪我怎麼沒有贏得賞金 – 2010-08-27 07:45:07