python 实现朴素贝叶斯算法的示例

2023-07-14 10:20:03 341

特点

这是分类算法贝叶斯算法的较为简单的一种，整个贝叶斯分类算法的核心就是在求解贝叶斯方程Ｐ（ｙ｜ｘ）＝［Ｐ（ｘ｜ｙ）Ｐ（ｙ）］／Ｐ（ｘ）
而朴素贝叶斯算法就是在牺牲一定准确率的情况下强制特征ｘ满足独立条件，求解P（x|y）就更为方便了
但基本上现实生活中，没有任何关系的两个特征几乎是不存在的，故朴素贝叶斯不适合那些关系密切的特征

fromcollectionsimportdefaultdict
importnumpyasnp
fromsklearn.datasetsimportload_iris
fromsklearn.model_selectionimporttrain_test_split
fromloguruimportlogger


classNaiveBayesScratch():
"""朴素贝叶斯算法Scratch实现"""
def__init__(self):
#存储先验概率P(Y=ck)
self._prior_prob=defaultdict(float)
#存储似然概率P(X|Y=ck)
self._likelihood=defaultdict(defaultdict)
#存储每个类别的样本在训练集中出现次数
self._ck_counter=defaultdict(float)
#存储每一个特征可能取值的个数
self._Sj=defaultdict(float)

deffit(self,X,y):
"""
模型训练，参数估计使用贝叶斯估计
X:
训练集，每一行表示一个样本，每一列表示一个特征或属性
y:
训练集标签
"""
n_sample,n_feature=X.shape
#计算每个类别可能的取值以及每个类别样本个数
ck,num_ck=np.unique(y,return_counts=True)
self._ck_counter=dict(zip(ck,num_ck))
forlabel,num_labelinself._ck_counter.items():
#计算先验概率，做了拉普拉斯平滑处理，即计算P（y）
self._prior_prob[label]=(num_label+1)/(n_sample+ck.shape[0])

#记录每个类别样本对应的索引
ck_idx=[]
forlabelinck:
label_idx=np.squeeze(np.argwhere(y==label))
ck_idx.append(label_idx)

#遍历每个类别
forlabel,idxinzip(ck,ck_idx):
xdata=X[idx]
#记录该类别所有特征对应的概率
label_likelihood=defaultdict(defaultdict)
#遍历每个特征
foriinrange(n_feature):
#记录该特征每个取值对应的概率
feature_val_prob=defaultdict(float)
#获取该列特征可能的取值和每个取值出现的次数
feature_val,feature_cnt=np.unique(xdata[:,i],return_counts=True)
self._Sj[i]=feature_val.shape[0]
feature_counter=dict(zip(feature_val,feature_cnt))
forfea_val,cntinfeature_counter.items():
#计算该列特征每个取值的概率，做了拉普拉斯平滑，即为了计算P（x|y）
feature_val_prob[fea_val]=(cnt+1)/(self._ck_counter[label]+self._Sj[i])
label_likelihood[i]=feature_val_prob
self._likelihood[label]=label_likelihood

defpredict(self,x):
"""
输入样本，输出其类别，本质上是计算后验概率
**注意计算后验概率的时候对概率取对数**，概率连乘可能导致浮点数下溢，取对数将连乘转化为求和
"""
#保存分类到每个类别的后验概率，即计算P（y|x）
post_prob=defaultdict(float)
#遍历每个类别计算后验概率
forlabel,label_likelihoodinself._likelihood.items():
prob=np.log(self._prior_prob[label])
#遍历样本每一维特征
fori,fea_valinenumerate(x):
feature_val_prob=label_likelihood[i]
#如果该特征值出现在训练集中则直接获取概率
iffea_valinfeature_val_prob:
prob+=np.log(feature_val_prob[fea_val])
else:
#如果该特征没有出现在训练集中则采用拉普拉斯平滑计算概率
laplace_prob=1/(self._ck_counter[label]+self._Sj[i])
prob+=np.log(laplace_prob)
post_prob[label]=prob
prob_list=list(post_prob.items())
prob_list.sort(key=lambdav:v[1],reverse=True)
#返回后验概率最大的类别作为预测类别
returnprob_list[0][0]


defmain():
X,y=load_iris(return_X_y=True)
xtrain,xtest,ytrain,ytest=train_test_split(X,y,train_size=0.8,shuffle=True)

model=NaiveBayesScratch()
model.fit(xtrain,ytrain)

n_test=xtest.shape[0]
n_right=0
foriinrange(n_test):
y_pred=model.predict(xtest[i])
ify_pred==ytest[i]:
n_right+=1
else:
logger.info("该样本真实标签为：{}，但是Scratch模型预测标签为：{}".format(ytest[i],y_pred))
logger.info("Scratch模型在测试集上的准确率为：{}%".format(n_right*100/n_test))

if__name__=="__main__":
main()

以上就是python实现朴素贝叶斯算法的示例的详细内容，更多关于python实现朴素贝叶斯算法的资料请关注毛票票其它相关文章！

python 实现朴素贝叶斯算法的示例

热门推荐

随机推荐