数据挖掘的历史是什么?
数据挖掘是使用模式识别技术(包括统计和数学技术)传输存储在存储库中的大量数据,从而找到有用的新关联、模式和趋势的过程。它是对事实数据集的分析,以发现意想不到的关系并以对数据所有者既合乎逻辑又对数据所有者有帮助的新方法总结记录。
它是对大量信息进行选择、探索和建模的过程,以找到最初未知的规律或关系,从而为数据库所有者获得清晰而有益的结果。
数据挖掘类似于数据科学。它是由一个人在特定情况下,针对特定数据集,有目标地执行的。此阶段包含多种类型的服务,包括文本挖掘、Web挖掘、音频和视频挖掘、图片数据挖掘和社交媒体挖掘。它是通过简单或非常具体的软件完成的。
通过外包数据挖掘,所有的工作都可以以较低的运营成本更快地完成。特定公司还可以使用新技术来保存手动无法找到的数据。在多个平台上有大量数据可用,但可访问的知识非常有限。
在数据中寻找有用模式的方法有多个名称,包括数据挖掘、知识提取、数据发现、数据收集、数据考古和数据模式处理。数据挖掘已被统计学家、数据分析师和管理信息系统(MIS)社区使用。
它还提高了在数据库领域的知名度。数据库中的知识发现过程是在1989年的第一次KDD研讨会上发明的(Piatetsky-Shapiro1991),以保持知识是数据驱动发现的最终产品。它已在人工智能和机器学习领域得到普及。
KDD定义了从数据中发现有用知识的完整过程,数据挖掘定义了这个过程中的一个具体步骤。数据挖掘是从数据中提取模式的特定算法的应用。KDD流程和数据挖掘步骤(流程内)之间的区别是该对象的中心点。
KDD过程中的进一步步骤,包括数据准备、数据选择、数据清理、适当的先验知识的结合以及对挖掘结果的适当分析,对于提供有用的知识从数据中改变是很重要的。
数据挖掘技术的盲目应用(在统计文献中被正确地视为数据疏浚)可能是一种危险的活动,很容易导致发现无意义和无效的设计。