什么是多关系数据挖掘?
多关系数据挖掘(MRDM)方法从关系数据库中搜索包含多个表(关系)的设计。每个表或关系代表一个实体或关系,由一组属性描述。关系之间的链接显示了它们之间的关系。
有一种应用传统数据挖掘方法(假设数据驻留在单个表中)的方法是命题化,它使用连接和聚合将多个关系数据转换为单个平面数据关系。
这可能会导致产生巨大的、不受欢迎的“普遍关系”(涉及所有属性)。此外,它可能导致信息丢失,包括数据库设计中链接所表示的基本语义信息。
多关系数据挖掘旨在直接从关系数据中发现知识。有不同的多关系数据挖掘功能,例如多国分类、聚类和频繁模式挖掘。
多关系分类的优点是建立一个利用不同关系中的信息的分类模型。多关系聚类旨在使用元组的属性以及在不同关系中与它们相关的元组将元组分组为簇。多关系频繁模式挖掘旨在发现涉及不同关系中相互关联项的模式。可以先以多关系分类为例,说明多关系数据挖掘的目的和过程。
在用于多关系分类的数据库中,有一个目标关系Rt,其元组称为目标元组并与类标签相关。其他关系是非目标关系。每个关系可以有一个主键(它唯一地识别关系中的元组)和几个外键(其中一个关系中的主键可以连接到另一个关系中的外键)。
如果它可以考虑一个二类问题,那么它可以选择一类作为正类,另一类作为负类。构建准确的多关系分类器的服务是在不同的关系中找到有助于对正目标元组和负目标元组进行分类的相关特征。
多关系分类最流行的假设形式是规则集。每个规则都是一个与类标签相关联的谓词列表(逻辑连接)。谓词是对关系中属性的约束。谓词通常是基于某个连接路径定义的。目标元组满足规则当且仅当它满足规则的每个谓词。