什么是 CluStream?
CluStream是一种基于用户指定的在线聚类查询对不断发展的数据流进行聚类的算法。它将聚类过程分为在线和离线组件。
在线组件使用微集群对数据流的汇总统计进行计算和存储,并对微集群进行增量在线计算和维护。离线组件使用基于倾斜时间框架模型的存储的汇总统计数据进行宏观聚类并回答各种用户问题。
集群演化数据流基于历史和当前流数据信息,采用倾斜时间框架模型(如渐进对数模型),根据新近度以不同的粒度级别存储一组微集群的快照。
这里的直觉是,与较早的事件相比,较新的事件将需要更多信息。存储的信息可用于处理与历史相关的、特定于用户的聚类查询。CluStream中的微集群被定义为集群特征。
CluStream扩展了BIRCH中开发的聚类特征的概念,以包括时间域。作为聚类特征的时间扩展,一组d维点的微聚类,X1,...,Xn,带有时间戳,T1,...,Tn,被定义为(2d+3)元组(CF2x,CF1x,CF2t,CF1t,n),其中CF2x和CF1x是d维向量,而CF2t、CF1t和n是标量。CF2x维护每维数据值的平方和,即$\sum_{i=1}^{n}{X_{i}}^{2}$
类似地,对于每个维度,数据值的总和保存在CF1x中。从统计的角度来看,CF2x和CF1x分别代表数据的二阶矩和一阶矩。时间戳的平方和保存在CF2t中。时间戳的总和保存在CF1t中。最后,微集群中的数据点数量保持在n中。
聚类特征具有加法和减法特性,这使得它们对数据流聚类分析非常有用。例如,可以通过添加各自的聚类特征来合并两个微聚类。此外,可以在不使用大量内存的情况下维护大量微集群。这些微集群的快照根据倾斜的时间框架存储在关键时间点。
在线微集群处理分为统计数据收集和微集群更新两个阶段。在第一阶段,总共维护了q个微集群,M1,...,Mq,其中q通常显着大于自然集群的数量,并由可用内存量决定。
在第二阶段,更新微集群。每个新数据点都会添加到现有集群或新集群中。它可以决定是否需要一个新的集群,定义每个集群的最大边界。