微客导航 » 文章资讯 » 数值数据的离散化和概念层次生成技术有哪些？

数值数据的离散化和概念层次生成技术有哪些？

2024-05-21 12:56:09 384

由于适用数据范围的广泛多样性和数据值的频繁更新，为数值属性定义概念层次结构既复杂又费力。数字数据的概念层次结构生成方法有多种，如下所示-

Binning-Binning是一种基于定义数量的bin的自上而下的拆分技术。这些方法也用作数量减少和概念层次生成的离散化方法。这些技术可以递归地用于生成的分区，以创建概念层次结构。Binning不使用类数据，因此是一种无监督的离散化技术。它容易受到用户指定的bin数量和异常值的影响。

直方图分析-与分箱一样，直方图分析是一种无监督的离散化技术，因为它不使用类数据。直方图将属性A的值划分为称为桶的不相交范围。例如，在等宽直方图中，值被划分为相同大小的分区或价格范围，其中每个桶的宽度为10美元）。使用等频直方图，对值进行分区，以便每个分区包含相同数量的数据元组。

直方图分析算法可以递归地应用于每个分区，以自动生成多级概念层次结构，一旦达到预先指定的概念级别数，过程就会终止。

每个级别也可以使用最小间隔大小来控制递归过程。这指定了分区的最小宽度或每个级别的每个分区的最小值数。

基于熵的离散化-熵通常用于离散化度量。它是由克劳德·香农(ClaudeShannon)在他们关于信息论和信息增益概念的开创性工作中首次提出的。

基于熵的离散化是一种有监督的、自上而下的分裂技术。它在计算和确定分割点（用于划分属性范围的数据值）中探索类分布数据。

聚类分析-聚类分析是一种流行的数据离散化方法。通过将A的值划分为集群或组，可以应用聚类算法来离散化数值属性A。

聚类考虑A的分布，以及数据点的接近程度，因此可以产生高质量的离散化结果。通过遵循自上而下的拆分策略或自下而上的合并策略，聚类可用于为A生成概念层次结构，其中每个集群形成概念层次结构的节点。