什么是聚类?
将一组物理或抽象对象组合成相同对象的类的过程称为聚类。集群是一组数据对象,它们在同一集群中彼此相同,但与其他集群中的对象不同。在多个应用程序中,一组数据对象可以被视为一个组。聚类分析是一项必不可少的人类活动。
聚类分析用于根据对这些记录进行的各种测量来形成相同记录的组或聚类。关键设计是以对分析目标有用的方式定义集群。这些数据已用于多个领域,例如天文学、考古学、医学、化学、教育、心理学、语言学和社会学。
营销中聚类分析的一个著名用途是市场细分——根据人口统计和交易历史数据对用户进行细分,并为每个细分市场量身定制营销技术。
另一个术语是市场结构分析,根据相似性的竞争度量来识别相同产品的团队。在营销和政治预测中,使用美国邮政编码对社区进行聚类已被广泛用于按生活方式对社区进行分组。
在金融领域,聚类分析可用于制定平衡的投资组合-给定几个投资机会(例如股票)的数据,可以根据财务绩效变量找到聚类,包括回报(每日、每周或每月)、波动性、贝塔系数和其他特征,包括行业和市值。从多个集群中选择证券有助于平衡投资组合。
金融领域中聚类分析的另一个操作是市场分析。对于给定的行业,它有兴趣根据增长率、盈利能力、行业规模、产品范围和在多个国际市场的存在等指标寻找相同公司的团队。然后可以分析这些团队以了解市场结构并确定例如谁是竞争对手。
聚类分析可用于大量数据。例如,Internet搜索引擎使用聚类方法对用户提交的查询进行聚类。然后可以将这些用于开发搜索算法。
通常,用于聚类的基本数据是对各种变量的测量表,其中每一列定义一个变量,一行定义一个记录。目的是形成数据组,以便相同的记录在同一组中。集群的数量可以预先指定或从数据中决定。