想象一下由用於描述它們的URL和標籤組成的圖形數據庫。由此我們想要找出哪些標籤集合最經常使用,並確定哪些URL屬於每個標識集合。查找最常用的不同術語集
我試圖創建簡化了這個問題,因爲這樣的cypher
數據集:
CREATE (tech:Tag { name: "tech" }), (comp:Tag { name: "computers" }), (programming:Tag { name: "programming" }), (cat:Tag { name: "cats" }), (mice:Tag { name: "mice" }), (u1:Url { name: "http://u1.com" })-[:IS_ABOUT]->(tech), (u1)-[:IS_ABOUT]->(comp), (u1)-[:IS_ABOUT]->(mice), (u2:Url { name: "http://u2.com" })-[:IS_ABOUT]->(mice), (u2)-[:IS_ABOUT]->(cat), (u3:Url { name: "http://u3.com" })-[:IS_ABOUT]->(tech), (u3)-[:IS_ABOUT]->(programming), (u4:Url { name: "http://u4.com" })-[:IS_ABOUT]->(tech), (u4)-[:IS_ABOUT]->(mice), (u4)-[:IS_ABOUT]->(acc:Tag { name: "accessories" })
以此爲參考(neo4j console example here),我們可以看看它和視覺識別最常用的標籤是tech
和mice
(對此的查詢是微不足道的),都引用3個URL。最常用的標籤對是[tech, mice]
,因爲它(在此示例中)是由2個網址(u4和u1)共享的唯一配對。需要注意的是,這個標籤對是匹配網址的一個子集,並不是整個集合。沒有任何網址共享3個標籤的組合。
如何編寫cypher
查詢以確定哪些標籤組合最頻繁地一起使用(成對或N個尺寸組)?也許有更好的方法來構建這些數據,這將使分析更容易?或者這個問題不適合Graph DB?一直在試圖找出這一點掙扎,任何幫助或想法,將不勝感激!
好東西。真正有趣的方法,並作爲圖新手,需要一段時間才能得到這個解決方案沒有幫助。非常感激! –