我在爲我的項目尋找Twitter或其他社交網站數據集。我目前有CAW 2.0 twitter數據集,但它只包含用戶的推文。我想要一個顯示朋友,追隨者等數量的數據。推特(社交網絡)數據集
它不一定是推特,但我更願意推特或臉書。我已經嘗試過infochimps,但顯然該文件不再可以下載用於推特。
有人可以給我很好的網站找到這種類型的數據集。我將把數據集提供給hadoop。
我在爲我的項目尋找Twitter或其他社交網站數據集。我目前有CAW 2.0 twitter數據集,但它只包含用戶的推文。我想要一個顯示朋友,追隨者等數量的數據。推特(社交網絡)數據集
它不一定是推特,但我更願意推特或臉書。我已經嘗試過infochimps,但顯然該文件不再可以下載用於推特。
有人可以給我很好的網站找到這種類型的數據集。我將把數據集提供給hadoop。
請嘗試以下三個數據集:
包含大約97 milllion鳴叫:
編者提示 :由於Twitter的請求將其刪除,因此上面以前鏈接的數據集不再可用。
包含4700萬個用戶的用戶圖形:
http://an.kaist.ac.kr/traces/WWW2010.html
隨着數據集包含網絡以及微博,但該數據是由滾雪球抽樣或收集的東西,因此朋友網絡是不一致的。它擁有大約1000萬條推文,您可以向研究人員發送更多數據。
http://www.public.asu.edu/~mdechoud/datasets.html
雖然看一下數據進行分發許可證。
希望這會有所幫助, 也可以告訴我用這個數據集計劃什麼樣的工作嗎? 我有幾個的Hadoop /豬腳本與數據集中使用
億個網頁被從Facebook提取: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6
我不知道它們包含的內容,但你可以看看,現在看來,這很容易找到Torrent的網站。
你也可以使用Facebook API,但是如果你想要一個足夠大的數據集,你必須要求Facebook訪問它的權利。 它包含鏈接的朋友,喜歡,團體,...
順便說一句,還有一個Twitter API。 – 2010-08-02 15:30:08
是的,我看到了這一點。雖然 – denniss 2010-08-02 16:27:39
感謝奇怪我怎麼沒有贏得賞金 – 2010-08-27 07:45:07
Facebook的社交圖譜,應用程序安裝和Last.fm用戶,事件,在UCIrvine由研究人員收集組:http://odysseas.calit2.uci.edu/research/
我認爲Twitter的數據的最佳工具聚會是http://www.followthehashtag.com,它可以得到歷史或未來的數據,並以先進的數據導出功能
隨着我們每週添加一次大的數據集(20萬左右鳴叫)一節
不知道,但我會用它來爲我的機器學習班。 – denniss 2010-08-02 18:36:02
@Akshay Bhat:他們似乎已經刪除了今天的數據集。你會碰巧知道可能有其他數據集嗎?謝謝! – Legend 2011-07-18 18:51:44