十大经典算法朴素贝叶斯-1.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[IOS开发:NSArray详解[IOS开发:NSArray详解[IOS开发:NSArray详解

贝叶斯理论 简单的说,贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法。 在人工智能领域,贝叶斯方法是一种非常具有代表性的不确定性知识表示和推理方法。 贝叶斯定理: P(A)是A的先验概率或边缘概率。之所以称为“先验”是因为它不考虑任何B方面的因素。 P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。 P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。 P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant). 总结: 扩展: 扩展: 对于第二个问题:朴素贝叶斯算法是在假定各个特征属性相互独立的情况下提出来,这在现实生活中是很难实现的,所以针对这个问题人们做了大量工作解决这个缺点。 (1)如果特征属性之间是有联系的,并且是一个有向无环图,可以采用另一个相关的贝叶斯分类算法——贝叶斯网络。在此不再介绍。 (2)除了贝叶斯网络还有kononenko提出的semi-na?ve bayesian 算法,称为半朴素贝叶斯算法, 扩展: 该算法就是将特征相关的属性分成一组,然后假设不同组中的属性是相互独立的,同一组中的属性是相互关联的。 (3)还有一种具有树结构的TAN(tree augmented na?ve Bayes)分类器,它放松了朴素贝叶斯中的独立性假设条件,允许每个属性结点最多可以依赖一个非类结点。TAN具有较好的综合性能。算是一种受限制的贝叶斯网络算法。 Thank you! 先验概率P(??_??):P(??_??)代表还没有训练数据前,??_??拥有的初始概率。P(??_??)常被称为??_??的先验概率,它一般是独立于样本的。如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于??_??的样例数|??_??|比上总样例数|D|来近似。 联合概率P(X|??_??),联合概率是指当已知类别为??_??的条件下,看到样本x出现的概率。 * 朴素贝叶斯算法 Na?ve Bayes 知识回顾 贝叶斯知识 1. 样本空间的划分 2. 全概率公式 全概率公式 图示 证明 化整为零 各个击破 说明 全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果. 称此为贝叶斯公式. 3. 贝叶斯公式 证明 条件概率的概念 乘法定理: 由以往的数据分析得到的概率, 叫做先验概率. 而在得到信息之后再重新加以修正的概率 叫做后验概率. 先验概率与后验概率 贝叶斯定理: 关于贝叶斯分类: 对于贝叶斯网络分类器,若某一待分类的样本D, 其分类特征值为 ,则样本D 属于类别yi 的概率 P( C = yi | X1 = x1 , X2 = x 2 , ... , Xn = x n) ,( i = 1 ,2 , ... , m) 应满足下式: 而由贝叶斯公式: 其中,P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。 朴素贝叶斯算法原理: 朴素贝叶斯算法原理: 朴素贝叶斯算法原理: 朴素贝叶斯算法原理: 朴素贝叶斯算法原理: 贝叶斯算法处理流程: 贝叶斯算法的处理流程: 第一阶段——准备阶段: 该阶段为朴素贝叶斯分类做必要的准备。主要是依据具体情况确定特征属性,并且对特征属性进行适当划分。然后就是对一部分待分类项进行人工划分,以确定训练样本。 这一阶段的输入是所有的待分类项,输出时特征属性和训练样本。分类器的质量很大程度上依赖于特征属性及其划分以及训练样本的质量。 贝叶斯算法处理流程: 第二阶段——分类器训练阶段: 主要工作是计算每个类别在训练样本中出现频率以及每个特征属性划分对每个类别的条件概率估计。输入是特征属性和训练样本,输出是分类器。 第三阶段——应用阶段: 这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。 购买电脑实例: 购买电脑实例: 购买电脑实例: (2)计算每个特征属性对于每个类别的条件概率: P(age=“30”|buys_computer=“yes”)=2/9=0.222 P(income=“medium”|buys_computer=“yes”)=4/9=0.444 P(student=“yes”|buys_computer=“yes”)=6/9=0.66

文档评论(0)

wendan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档