上一节我们介绍了监督学习的整体框架和基本的要点,按照总分的思考方式,接下来我们要分别介绍相应的一些算法了。今天这节我们来看看贝叶斯定理在机器学习中的应用。本章要点如下:
1. 贝叶斯定理;
2. 分类中的贝叶斯定理;
3. 风险和效用度量;
4. 关联规则;
一、贝叶斯定理
贝叶斯定理来源于统计学中的条件概率,它可以揭示两个变量间的对应关系,基本公式如下:
其中,P(C|x)表示观测到数据x时事件C发生的条件概率,我们称为后验概率(posterior probability);P(C)=P(C=1)是事件C=1发生时的概率,称为先验概率(prior probabilty),因为这是在观察到数据x之前就已经得到的关于C的知识;P(x|C)称为类似然,与P(C|x)相反,表示属于事件C的样本观测 值为x的概率;P(x)表示证据(evidence),是观测到x的边缘概率,即:
这里的边缘概率可以理解为是x与C的联合概率,即同时发生时的概率,由乘法原理可得上面的公式。
二、分类中的贝叶斯定理
贝叶斯定理在分类问题中主要用来计算类的概率,即所观测的样本数据x属于类C的概率。一般情况下,我们可以假设有K个互斥和穷举的类集合C,元素个数K个,我们可以得到先验概率满足:
我们根据观测到的样本数据x可以计算某个类的后验概率,即:
为了将误差最小化,贝叶斯分类器(Bayes' classfier)当然选择具有最高后验概率的类,即:
三、风险与效用度量
有了贝叶斯定理,我们就可以试着对决策中的风险进行度量。比如我们可以定义动作α-i表示把输入指派到类C-i的决策,而λ-ik表示实际属于类C-k时却指派到类C-i时的动作造成的损失,因此我们可以计算动作α-i的期望风险(expected risk):
我们的目标就是从中选择具有最小风险的动作。同样,我们也可以定义效用函数:
这里同风险度量相反,我们来求使得效用最大的动作α-i。
四、关联规则
关联性分析也是机器学习中非常关注的一个方面,就贝叶斯定理应用来说,以常见的”购物篮“作为实例,比如X和Y分别表示购买两种商品的顾客,那么我们有以下三个重要的度量其关联性:
1. 关联规则X->Y的置信度(confidence),即购买X的顾客有多大比例会同时购买Y:
2. 关联规则X->Y的提升度(lift),又称为兴趣度(interest),即购买X对购买Y的作用:
3. 关联规则X->Y的支持度(support),表示规则的显著性:
好了,今天先到这里,我们明天继续!
Refer:
《机器学习导论》,Ethen Alpaydin(土耳其),机械工业出版社
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。