多元统计分析PPT.ppt

下载文档 降价啦

160
0
约7.75千字
约 46页
2018-04-15 发布于浙江
举报
版权申诉
保障服务

多元统计分析PPT.ppt

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

多元统计分析PPT

定理1：设有个总体：，已知的联合密度函数为，先验概率为，错判损失为，则贝叶斯（Bayes）判别的解为其中 ……（6）下面给出贝叶斯（Bayes）判别的解的主要结论： 3.3 费希尔判别费希尔判别的基本思想：借助于方差分析的思想，利用投影将元的数据投影到某一个方向，使得投影后组与组之间的差异尽可能的大，然后根据一定的判别规则对新样本的类别进行判断。首先构造一个线性判别函数 ……（7）可见上面的函数将元的数据投影到了一个方向，系数的确定原则是使得总体间的差异最大，总体内部的离差最小。 A.确定线性判别函数设有个元总体：，它们的均值为：；协方差为：。在的条件下，有令这里确定，使得个总体间的差异最大，总体内部的离差最小，则应该达到最大。为了确保的唯一性，不妨设。因此，问题转化为：在条件约束下，求使得式达到最大——这是大家非常熟悉的条件极值的问题。根据拉格朗日乘子法：求解得 ……（8）由方程（8）第一式知，是的特征根，是相应的特征向量。可以证明（的大小可以衡量判别函数的判别效果，故称为判别效率）。设的非零特征根为，相应的满足约束条件的特征向量为，显然，取时达到最大。 B.确定判别规则假设系数已经求出，那么线性判别函数就完全确定下来，对于一个新的样品，可以构造下面的判别规则： ……（9） 3.4 判别分析模型的显著性检验建立了判别分析模型以后还需要对模型进行评价，这就需要对判别分析模型的显著性进行检验，主要包括两个方面：判别效果的检验和各变量判别能力的检验[1，2]。所谓判别效果的检验就是检验 k 个总体的均值是否有显著的差异，反映了采用判别分析模型的有效性问题；各变量判别能力的检验反映的是各指标（因素）对判别分类所起的作用时候显著。具体的检验方法因为过于复杂，这里不再赘述。需要说明的是，作为多元统计分析中的经典方法，判别分析在许多关于多元统计分析的教材中均有详细而深刻的论述。 4．DNA序列分类问题的求解关于DNA序列分类问题的讨论和分析，我们在第1部分和第2部分已经作了详细的分析和讨论。这里，我们将根据多元统计分析的知识建立判别分析模型来求解DNA序列的分类问题（这里只求解问题一）。首先，需要提取每条序列的所蕴含的特征——因为将序列的全部信息都作为指标（因素）来建立判别模型是不可能的。 A.特征的提取 DNA序列中所蕴含的信息是非常丰富的，因此，如何提取特征、提取什么特征是一个非常困难的问题——这个问题涉及到生物学的知识，此处将不深入展开讨论。我们考虑采用序列中4个碱基A，T，C，G的含量百分比作为DNA序列的特征。为了便于讨论，我们用表示碱基A在序列中所占的百分比；表示碱基T在序列中所占的百分比；表示碱基C在序列中所占的百分比；表示碱基G在序列中所占的百分比。因为， + + + =1，因此、、和中只有三个变量是独立的，不失一般性，我们选取、和为指标，以表示第个DNA序列的特征向量，换句话说， “完全”代表第个DNA序列。正如前面第2部分中所分析的：在此DNA序列分类问题中，共有两个已知的总体（类）（A类）和（B类），而且，训练样本共有个，其中，前10个样本（记为）属于总体（类）；后 10个样本（记为）属于总体（类）。需要解决的问题是：对给定的新样品，我们需要判断其属于哪个总体（类）。 B.建立判别模型