数据挖掘的挑战是什么?
数据挖掘存在各种挑战,如下所示-
数据挖掘算法的效率和可扩展性-它可以有效地从数据库中的大量数据中提取数据,知识发现算法应该是高效的,并且可以扩展到庞大的数据库。具体来说,数据挖掘算法的运行时间应该是可预测的,并且在庞大的数据库中是可以接受的。具有指数或什至信道阶多项式复杂度的算法将无法有效使用。
数据挖掘结果的有用性、确定性和表现力-识别出的知识应该准确地描绘数据库的内容,并有利于特定的应用程序。不完善性必须通过不确定性的度量来定义,以近似规则或定量规则的形式。
必须在数据挖掘系统中优雅地管理噪声和异常数据。这也促进了通过开发统计、分析和模拟模型和工具来衡量所发现知识的质量的系统研究,例如趣味性和可靠性。
各种数据挖掘结果的表达-从海量数据中可以发现多种知识。它还可以从多个视图检查发现的知识并以不同的形式显示它们。
这需要我们用高级语言或图形用户界面来定义数据挖掘请求和发现的知识,以便非专家可以定义数据挖掘任务,并且发现的知识可以被用户理解和准确地使用。这也需要发现系统来选择富有表现力的知识表示技术。
多个抽象级别的交互式挖掘知识-由于预测从数据库中可以发现的确切内容很复杂,因此必须将高级数据挖掘查询视为可以揭示一些有趣踪迹以供进一步探索的探针。
必须鼓励交互式发现,它使用户能够交互式地细化数据挖掘请求,动态改变数据聚焦,逐步深化数据挖掘过程,并从多个抽象层次和多个角度灵活地查看信息和数据挖掘结果。
从不同数据源挖掘信息——广泛可用的本地和广域计算机网络,如互联网,可以连接各种数据源,形成庞大的分布式异构数据库。从具有不同数据语义的格式化或未格式化信息的多个来源挖掘知识对数据挖掘提出了新的要求。
否则,数据挖掘可以帮助揭示异构数据库中的高级数据规律,而这些规律几乎无法被简单的查询系统发现。此外,数据库的庞大规模、数据的广泛分布以及几种数据挖掘方法的计算复杂性推动了并行和分布式数据挖掘算法的进步。