Clustering by fast search and find of density peak

william 發布于2019-07-30 14:42 / 3166人閱讀

摘要：原文鏈接聚類算法介紹聚類是將數據對象的集合分成相似的對象類的過程。其中基于距離的聚類算法是用各式各樣的距離來衡量數據對象之間的相似度。基于互連性的聚類算法通常基于圖或超圖模型，將高度連通的對象聚為一類。

原文鏈接 https://zhangmingemma.github....

聚類算法介紹

　　聚類是將數據對象的集合分成相似的對象類的過程。使得同一個簇（或類）中的對象之間具有較高的相似性，而不同簇中的對象具有較高的相異性。按照聚類的尺度，聚類方法可被分為以下三種：基于距離的聚類算法、基于密度的聚類方法、基于互連性的聚類算法。其中基于距離的聚類算法是用各式各樣的距離來衡量數據對象之間的相似度。基于密度的聚類算法主要是依據合適的密度函數等。基于互連性的聚類算法通常基于圖或超圖模型，將高度連通的對象聚為一類。

本文介紹的是Alex Rodriguez和Alessandro Laio在Science上發表的《Clustering by fast search and find of density peaks》所提出的一種新型的基于密度的聚類算法。

算法思想

該算法的假設類簇的中心由一些局部密度比較低的點圍繞, 并且這些點距離其他有高局部密度的點的距離都比較大.首先定義兩個值：局部密度ρi以及到高局部密度點的距離δi，這兩個值僅僅取決于兩點之間的距離dij，且該距離滿足三角不等式

其中dc是一個截斷距離, 是一個超參數.所以ρi相當于距離點i的距離小于dc的點的個數.由于該算法只對ρi的相對值敏感,
所以對dc的選擇比較魯棒, δi用于描述點i到其他較高密度點之間的最小距離：

對于密度最大的點, 設置δi=maxj(dij).只有那些密度是局部或者全局最大的點才會遠大于正常的相鄰點間距.因此聚類中心被視為是δi值異常最大的點。

聚類過程

那些有著比較大的局部密度ρi和很大的δi的點被認為是類簇的中心. 局部密度較小但是δi較大的點是異常點.在確定了類簇中心之后, 所有其他點屬于距離其最近的類簇中心所代表的類簇.具體的聚類過程可以從圖1中看到，A圖標識二維空間內的28個點，可以看到1和10兩個點的密度最大，因此1和10被定義為聚類中心。右圖是以ρi和為橫坐標, 以δi為縱坐標, 這種圖稱作決策圖。其中9和10兩個點ρi值相似，但δi值卻差異很大，因此9被歸為點1的類簇，而10被歸為另一類簇。所以，只有較高δi值和相對較高ρi值的點才會被視為聚類中心。26, 27, 28三個點的δi也比較大, 但是ρi較小, 所以是異常點.

聚類中心確定之后，剩余點被分配給與其具有較高密度的最近鄰居相同的類簇。與其他迭代優化的聚類算法不同，類簇分配在單個步驟中執行。在聚類分析中, 通常需要確定每個點劃分給某個類簇的可靠性. 在該算法中, 可以首先為每個類簇定義一個邊界區域(border region), 亦即劃分給該類簇但是距離其他類簇的點的距離小于dc的點. 然后為每個類簇找到其邊界區域的局部密度最大的點, 令其局部密度為 . 該類簇中所有局部密度大于的點被認為是類簇核心的一部分(亦即將該點劃分給該類簇的可靠性很大), 其余的點被認為是該類簇的光暈, 亦即可以認為是噪音

圖A表示點分布，其中包含非球形點集和雙峰點集。B和C分別表示4000和1000個點按照A中模式的分布，其中點根據其被分配的不同類簇著色，黑色的點屬于類簇光暈。D和E是對應的決策圖，而F表示的是不同點量下不正確聚類點的比率，誤差線代表平均值的標準差

聚類結果

圖3是分別利用點集和Olivetti臉部圖片集的聚類結果

算法特點

算法具有以下特點：

A．該算法是一種基于密度的聚類算法，核心思想是認為類簇的中心由一些局部密度比較低的點圍繞, 并且這些點距離其他有高局部密度的點的距離都比較大。

B．該算法將非聚類中心點的聚類過程分離成一個多帶帶的進程。使得聚類中心的選擇和非聚類點的歸類分離開來，增大了聚類精度。

C．該算法適用于圖片、非球形點集的聚類。

云服務器 GPU云服務器 share-and-find density Clustering peaks

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/40863.html

機器學習——深度學習(Deep Learning)

摘要：有監督學習與無監督學習，分類回歸，密度估計聚類，深度學習，，有監督學習和無監督學習給定一組數據，為，。由于不需要事先根據訓練數據去聚類器，故屬于無監督學習。 Deep Learning是機器學習中一個非常接近AI的領域，其動機在于建立、模擬人腦進行分析學習的神經網絡，最近研究了機器學習中一些深度學習的相關知識，本文給出一些很有用的資料和心得。Key Words：有監督學習與無監督學習，分類...

Guakin_Huang 2019-04-25 17:57 評論0 收藏0
Learning Deep Learning（學習深度學習）

摘要：如果你對算法實戰感興趣，請快快關注我們吧。加入實戰微信群，實戰群，算法微信群，算法群。作者：chen_h微信號 & QQ：862251340微信公眾號：coderpai簡書地址：https://www.jianshu.com/p/e98... Learning Deep Learning（學習深度學習） There are lots of awesome reading lists...

newtrek 2019-07-30 15:16 評論0 收藏0
MongoDB 使用不同表結構存儲時間序列數據的查詢效率分析

摘要：每個對應時間序列的一行所以按照測試數據來說，就會插入個文檔到里。同時嵌套存儲還有助于在按條件過濾的情況下砍掉不需要遞歸查詢的子文檔數量。我們這里關注的是在同樣配置的情況下，不同表結構對于查詢時間的相對關系。數據結構介紹最完整的時間序列的邏輯數據模型如下： [timestamp],[d1],[d2]...[dn],[v1],[v2]...[vn] d1 ~ dn 是維度，比如...

LuDongWei 2019-06-26 16:51 評論0 收藏0