为什么朴素贝叶斯分类被称为朴素?
贝叶斯分类器是统计分类器。他们可以预测类成员概率,例如给定样本属于特定类的概率。贝叶斯分类器在应用于大型数据库时也表现出很高的准确性和速度。
一旦定义了类,系统就应该推断出管理分类的规则,因此系统应该能够找到每个类的描述。描述应该只涉及训练集的预测属性,以便只有正例满足描述,而不是负例。如果一个规则的描述涵盖了所有的正例,而没有涵盖一个类的任何一个反例,则称该规则是正确的。
假设所有属性的贡献都是独立的,并且每个属性对分类问题的贡献相等,这是一种称为朴素贝叶斯分类的简单分类方案。通过分析每个“独立”属性的贡献,确定条件概率。通过组合不同属性对要进行的预测的影响来进行分类。
朴素贝叶斯分类被称为朴素,因为它假设类条件独立。属性值对给定类的影响与其他属性的值无关。这个假设是为了减少计算成本,因此被认为是幼稚的。
贝叶斯定理-让X是一个数据元组。在贝叶斯术语中,X被认为是“证据”。设H为某种假设,例如数据元组X属于指定的C类。确定概率P(H|X)对数据进行分类。这个概率P(H|X)是假设H在给定“证据”或观察到的数据元组X的情况下成立的概率。
P(H|X)是H以X为条件的后验概率。例如,假设数据元组的世界仅限于分别由属性年龄和收入描述的客户,并且X是具有Rs的30岁客户。20,000收入。假设H是客户将购买计算机的假设。那么P(H|X)反映了在已知客户的年龄和收入的情况下,客户X购买计算机的概率。
P(H)是H的先验概率。例如,这是任何给定客户购买计算机的概率,而不管其年龄、收入或任何其他信息。后验概率P(H|X)基于比先验概率P(H)更多的信息,后者与X无关。
类似地,P(X|H)是X以H为条件的后验概率。它是客户X30岁并赚取Rs的概率。20,000。
P(H)、P(X|H)和P(X)可以从给定的数据中估计出来。贝叶斯定理提供了一种根据P(H)、P(X|H)和计算后验概率P(H|X)的方法P(X)。它是由
$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$