贝叶斯分类的主要思想是什么?
分类是一种数据挖掘方法,用于预测数据实例的团队成员资格。这是一个两步程序。第一步,建立一个模型,定义一组预定的数据类或方法。该模型是通过考虑由属性定义的数据库元组开发的。
它的任务是分析新呈现的对象的特征并将其创建为预定义的类集合之一。对于学习分类规则,系统必须从预测属性中发现预测类别的规则,因此首先必须为每个类别表示条件。必须为系统提供一个具有特定已知属性值的案例或元组,以便能够预测此案例适用于哪个类。
一旦定义了类,系统必须推断出管理分类的规则,因此系统必须能够发现每个类的表示。描述应该只定义训练集的预测属性,以便只有正例必须满足表征,而不是负例。如果一个规则的定义涵盖了所有的正例并且没有一个类的负例被覆盖,那么它就是正确的。
贝叶斯分类-贝叶斯分类器是统计分类器。他们可以预测类成员概率,包括给定样本属于特定类的概率。贝叶斯分类器在用于高数据库时也表现出很高的效率和速度。
朴素贝叶斯分类器认为属性值对给定类的影响独立于不同属性的值。这种假设被称为类条件独立性。创建它是为了定义包含的评估并被视为朴素。
贝叶斯定理-贝叶斯定理-让X是一个数据元组。在贝叶斯方法中,X被视为“证据”。假设H是一些假设,包括数据元组X属于特定的类C。概率P(H|X)决定了定义数据。这个概率P(H|X)是假设H的影响已经给出“证据”或注意到数据元组X的概率。
P(H|X)是H以X为条件的后验概率。例如,考虑数据元组的性质通常仅限于由属性年龄和收入定义的用户,而X是具有Rs的30岁用户。20,000收入。假设H是用户将购买计算机的假设。因此,假设用户的年龄和收入是已知的,P(H|X)反转用户X购买计算机的概率。
P(H)是H的先验概率。例如,这是任何给定用户购买计算机的概率,无论其年龄、收入或其他数据如何。后验概率P(H|X)位于比不包含X的先验概率P(H)更多的数据上。
同样,P(X|H)是X以H为条件的后验概率。它是用户X30岁并获得Rs的概率。20,000。
P(H)、P(X|H)和P(X)可以根据给定的信息进行测量。贝叶斯定理支持根据P(H)、P(X|H)和计算后验概率P(H|X)的方法P(X)。它是由
$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$