为什么小波变换对聚类有用?
WaveCluster是一种多分辨率聚类算法,它首先通过将多维网格架构强加到数据空间来汇总记录。它可以使用小波变换来改变原始特征空间,在变换后的空间中寻找密集域。
在这种方法中,每个网格单元总结了映射到单元中的一组点的数据。该汇总数据通常适合主存储器,供多分辨率小波变换和随后的聚类分析使用。
小波变换是一种将信号分解为多个频率子带的信号处理方法。通过使用一维小波变换d次,小波模型可以用于d维信号。在应用小波变换时,数据被更改以在多个分辨率级别保持对象之间的相对距离。这使数据中的自然集群变得更容易检测。可以通过在新域中搜索密集区域来识别集群。
小波变换的优点如下-
它提供无监督聚类:它需要帽子形过滤器来强调点聚类的区域,同时抑制聚类边界之外的较弱数据。
它提供无监督聚类-它需要帽子形过滤器来强调点聚类的区域,同时抑制聚类边界之外的较弱数据。
因此,初始特征空间中的密集区域充当相邻点的吸引子和远离点的抑制剂。这定义了数据中的集群自动突出并“清除”它们周围的区域。因此,另一个好处是小波变换可以自动消除异常值。
小波变换的多分辨率特征可以支持在多个精度级别上检测集群。
基于小波的聚类非常快,计算复杂度为O(n),其中n是数据库中的对象数。算法实现可以并行创建。
WaveCluster是一种基于网格和密度的算法-它符合一个好的聚类算法的几个要求-它有效地管理大型数据集,找到任意形状的集群,成功管理异常值,对输入顺序不敏感,并且不需要定义输入参数,包括簇数或邻域半径。
在初步研究中,发现WaveCluster在效率和聚类质量方面均优于BIRCH、CLARANS和DBSCAN。该研究还发现WaveCluster能够管理多达20个维度的数据。