2014-11-03 118 views
0

在DBSCAN中,核心點被定義爲在Eps中具有多於MinPts。在DBSCAN中,如何確定邊界點?

因此,如果MinPts = 4,Eps中共有5個點的點肯定是一個核心點。 如何在Eps中獲得4分(包括自己)?它是核心點還是邊界點?

回答

1

邊界點是是(在DBSCAN)的羣集的一部分點,但不密實本身(即每個集羣成員是核心點)。

在後續算法HDBSCAN中,邊界點的概念被丟棄。

Campello,R.J.G.B.; Moulavi,D。 Sander,J。 (2013年)。
基於密度的聚類分層密度估計。
第17屆亞太地區數據庫知識發現會議論文集,PAKDD 2013.計算機科學講義7819。 160. DOI:10.1007/978-3-642-37456-2_14

其中規定:

我們新的定義與集羣的統計解釋爲電平設置的連接部件更一致密度邊界物體在技術上不屬於水平集(其估計密度低於閾值)。

0

這在很大程度上取決於實施。最好的方法是自己玩遊戲。

在原始DBSCAN 論文中,核心點條件爲N_Eps> = MinPts,其中N_Eps是某個數據點的Epsilon鄰域,它從它自己的N_Eps中排除。

按照你的例子,如果MinPts = 4和N_Eps = 3(或者你自己說的話包括4),那麼它們不會根據原始文件形成一個簇。另一方面,否則DBSCAN的實施工作就會發揮作用,這意味着它可以成爲一個組織。因此,對於MinPts = 4,總共需要四個點來形成一個集羣。

[1] Ester,Martin;克里格爾,漢斯 - 彼得; Sander,Jörg;徐小偉(1996)。 「一種基於密度的算法,用於發現噪聲較大的空間數據庫中的羣集。」

[2] http://scikit-learn.org

0

其實我只是重讀了原文,而定義1使它看起來像是屬於它自己的eps附近的核心點。所以如果minPts是4,那麼一個點在它的eps鄰域至少需要3個其他的。

請注意,在定義1中他們說NEps(p)= {q∈D| dist(p,q)≤Eps}。如果這個點被排除在它的eps鄰域之外,那麼它會說NEps(p)= {q∈D| dist(p,q)≤Eps和p!= q}。 Where!=是「不等於」。

這一點也得到DBSCAN的光學元件,論文作者在圖4鋼筋http://fogo.dbs.ifi.lmu.de/Publikationen/Papers/OPTICS.pdf

所以我覺得SciKit解釋是正確的,維基百科說明在http://en.wikipedia.org/wiki/DBSCAN

誤導