决策树分类模型算法实验报告.doc

下载文档

554
0
约3.06千字
约 8页
2019-12-06 发布于北京
举报
版权申诉
保障服务

决策树分类模型算法实验报告.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

鲁东大学信息与电气工程学院商务智能实验报告（2019—2020学年第一学期）课程名称商务智能实验题目决策树分类数据挖掘专业信息管理与信息系统班级信管1702 姓名 _ 邱勇溪学号 20172203261 2019年 11 月 22 日实验目的及要求 1.1目的： (1) 初步了解决策树算法的基本思想 (2) 理解决策树模型的具体实现步骤 (3)学会运用数据挖掘工具实现数据挖掘过程 1.2要求： (1)整理决策树算法理论 (2)建立数据挖掘项目 (3)设置数据源视图 (4)建立数据挖掘结构 (5)查看决策树对三国人物身份的分类挖掘结果 2.决策树算法概念及优缺点概念：决策树模型是一种简单易用的非参数分类器。它不需要对 \t "/item/%E5%86%B3%E7%AD%96%E6%A0%91%E6%A8%A1%E5%9E%8B/_blank" 数据有任何的先验假设，计算速度较快，结果容易解释，而且稳健性强。决策树模型优点： (1)浅层的(Shallow)决策树视觉上非常直观，而且容易解释。 (2)对数据的结构和分布不需作任何假设。 (3)可以捕捉住变量间的相互作用(Interaction)。决策树模型缺点： (1)深层的(Deep)决策树视觉上和解释上都比较困难。 (2)决策树容易过分微调于样本数据而失去稳定性和抗震荡性。 (3)决策树对样本量(Sample Size)的需求比较大。 (4)处理缺失值的功能非常有限。框架分析及模块分解 2.1框架和分类方法 (1)制定预测精度性的标准规范 (2)选择分裂(分层)技术 (3)定义停止分裂(分层)的时间点 (4)选择适当大小的决策树决策树分类方法：从数据中生成分类器的一个有效的方法就是生成一个决策树。是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树分类方法采用自顶向下的递归形式（实质就是分而治之），在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该结点向下的分支，在决策树的叶节点得到结论。所以从决策树的根到叶节点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式的规则。决策树的非叶节点表示属性；节点向下的分支对应属性的属性值；叶节点表示类别。分类类别为未知的新实例时可以从这颗树的根节点开始，测试这个节点对应的属性，按照给定实例的属性的属性值沿着树枝向下移动，这个过程在新节点为根的子树上重复，直到进行到叶节点得到新实例的类别为止。 2.2基本概念与原理决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。他属于监督学习。所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。（Ａ）决策树采用自顶向下的贪婪算法，在每个节点选择分类效果最好的属性（分裂属性的数据类型分为离散型和连续性两种情况，对于离散型的数据，按照属性值进行分裂，每个属性值对应一个分裂节点；对于连续性数据，一般性的做法是对数据按照该属性进行排序，再将数据分成若干区间，如[0,10]、[10,20]、[20,30]…，一个区间对应一个节点，若数据的属性值落入某一区间则该数据就属于其对应的节点。）进行分类，重复此过程，直到这棵树能准确的分类训练样本，或者所有的属性都被使用过。决策树构造完成后通常需要进行剪枝操作，以限制决策树的规模来提高预测精度。核心问题是在每个节点选取要测试的属性，以及对决策树进行剪枝处理。（Ｂ）树的建立一般都是通过在内部节点选择一个最优的测试属性对训练及反复的进行划分，并建立下一级的节点。直到每个划分都只包含同一种类的样本为止，这时称为纯划分。 3.核心算法公式 Ⅰ信息熵训练集中的数据每一个属性都包含了一定的信息，这些信息的作用是减少整个数据集的不确定性，一般称信息不确定性为信息熵。（信息量的度量就等于不确定性的多少，即：不确定性越大，熵也越大）信息增益方法选取最高信息增益（熵减少的程度最大）的属性作为当前节点的分类属性，以便使划分获得的训练样本自己进行分类所需的信息量最少（因为不确定性减少了）。（减少的信息量就是通过一次划分之后通过某个属性所获得的信息量） ※信息量满足的条件 ?信息量不是负数 ?信息量之间可以相加 ?信息量连续依赖于概率 ?信息量大小与可能结果数量有关，假如每一个可能的结果出现的概率一样，那么对于可能结果数量多的那个事件，新信息有更大的潜力具有更大的信息量，因为初始状态下不确定性更大。信息熵的