数值数据的离散化和概念层次生成技术有哪些?
由于适用数据范围的广泛多样性和数据值的频繁更新,为数值属性定义概念层次结构既复杂又费力。数字数据的概念层次结构生成方法有多种,如下所示-
Binning-Binning是一种基于定义数量的bin的自上而下的拆分技术。这些方法也用作数量减少和概念层次生成的离散化方法。这些技术可以递归地用于生成的分区,以创建概念层次结构。Binning不使用类数据,因此是一种无监督的离散化技术。它容易受到用户指定的bin数量和异常值的影响。
直方图分析-与分箱一样,直方图分析是一种无监督的离散化技术,因为它不使用类数据。直方图将属性A的值划分为称为桶的不相交范围。例如,在等宽直方图中,值被划分为相同大小的分区或价格范围,其中每个桶的宽度为10美元)。使用等频直方图,对值进行分区,以便每个分区包含相同数量的数据元组。
直方图分析算法可以递归地应用于每个分区,以自动生成多级概念层次结构,一旦达到预先指定的概念级别数,过程就会终止。
每个级别也可以使用最小间隔大小来控制递归过程。这指定了分区的最小宽度或每个级别的每个分区的最小值数。
基于熵的离散化-熵通常用于离散化度量。它是由克劳德·香农(ClaudeShannon)在他们关于信息论和信息增益概念的开创性工作中首次提出的。
基于熵的离散化是一种有监督的、自上而下的分裂技术。它在计算和确定分割点(用于划分属性范围的数据值)中探索类分布数据。
聚类分析-聚类分析是一种流行的数据离散化方法。通过将A的值划分为集群或组,可以应用聚类算法来离散化数值属性A。
聚类考虑A的分布,以及数据点的接近程度,因此可以产生高质量的离散化结果。通过遵循自上而下的拆分策略或自下而上的合并策略,聚类可用于为A生成概念层次结构,其中每个集群形成概念层次结构的节点。