我使用OpenRefine將一些Twitter元數據格式化爲由Gephi讀取的邊緣列表。 如果我想研究用戶提及的關聯或用戶標籤關聯,它很容易工作。 但是現在我想研究協同標籤,因此在推文中標籤多頻繁地出現。Twitter與OpenRefine共同標籤
要做到這一點OpenRefine(我不知道很好)是有點棘手,我需要一些幫助。 我的數據是在csv中,有兩列:用戶的用戶名,鳴叫中使用的逗號分隔的標籤串。 使用OpenRefine獲取用戶標籤邊界列表我使用hashtags列上的「Split multi valued cells」,然後在用戶列上使用「Fill down」(非常簡單)。 我不知道如何獲得hashtag-hashtag邊界列表。我可以在hashtags列上使用「Split multi valued cells」來獲取推文中提到的每個hashtag的新行。但是,如何「填充」這些行以獲得hashtag-hashtag共現的所有組合?
例子:
數據:
User Hashtags
Dario Data mining, R, OpenRefine
期望的結果:
Hashtag 1 Hashtag 2
Data mining R
Data mining OpenRefine
R OpenRefine