- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一 名词解释
1 . 数据挖掘:从大型数据库的数据中提取人们感兴趣的知识。
2. 决策树:一个类似于流程图的树结构,内部节点表示一个属性 (取值 )上的测试,其分支
代表每个结果;其每个叶子节点代表一个类别,树的最高节点就是根节点。
3. 聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
4. 数据分类: 从数据库中发现数据对象的共性, 并将数据对象分成不同的几类的一个过程。
5. 维:透视或关于一个组织想要记录的实体。
6. 多层次关联规则:一个关联规则的内容涉及不同抽象层次的内容。
7. 单层次关联规则:一个关联规则的内容涉及单一个层次的内容。
8.局外者:数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。
9. 数据仓库:一个面向主体的、集成的、时变的、非易失的数据集合,支持管理过程的决
策制定。
10. 数据集市:数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。
11. 数据区别:将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。
12. 数据特征化:目标类数据的一般特征或特性的汇总。
13. 噪声数据:指数据中存在错误、异常 (偏离期望值 ) 的数据。
14. 不完整数据:感兴趣的属性没有值。
15. 不一致数据:数据内涵出现不一致的情况。
16. 数据清洗:消除数据中所存在的噪声以及纠正其不一致的错误。
17. 数据集成:将来自多个数据源的数据合并到一起构成一个完整的数据集。
18. 数据消减:通过删除冗余特征或聚类消除多余数据。
19. 数据转换:将一种格式的数据转换为另一种格式的数据。
20.分类:预测分类标号(或离散值) ,在分类属性中的训练样本集和值 (类标号 ) 的基础上分
类,数据 (建立模型 )并使用它分类新数据。
21. 簇:是一组数据对象的集合(是由聚类所生成的) 。
22. 数据源:是表明数据地址的联机字符串
23. 数据源视图:是一个抽象层们能够让用户修改查看数据的方式,或者定义一个图表并在
稍后转换实际的源。
24. 一个图表题填空:菜单栏、标签页、解决方案资源管理器、属性窗口、错误窗口、设计
窗口、设计标签。 (顺时针方向填写) P82
二. 简答题
1. 预测与分类的区别是什么 ?
分类是预测数据对象的离散类别,预测是用于数据对象的连续取值
2. 数据分类由哪几步过程组成 ?
第一步,建立一个模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。
3. ID3 算法的核心是什么 ?
在决策树各级节点上选择属性时, 用信息增益作为属性的选择标准, 以使得在每一个叶节点
进行测试时能获得关于被测试记录最大的类别信息。
4. 为什么朴素贝叶斯分类称为 “朴素 ”的?简述朴素贝叶斯分类的主要思想。
① 朴素贝叶斯分类假定一个属性值对给定类的影响独立于其它属性的值。该假定称作类条
件独立。做此假定是为了简化所需计算,并在此意义下称为“朴素的” 。
② 设为一个类别未知的数据样本, H 为某个假设,若数据样本 X 属于一个特定的类别 C ,
分类问题就是决定 P (H|X ),即在获得数据样本 X 时假设成立的概率。
5. 神经网络的优点和缺点分别是什么 ?
优点:其对噪音数据的高承受能力,以及它对未经过训练的数据的分类能力。
缺点:需要很长的训练时间,因而对于有足够长训练时间的应用更合适。
6. 典型的数据挖掘系统主要由哪几部分组成?
数据库,数据仓库或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;图形
用户界面
7. OLAP 与 OLTP 的全称分别是什么?它们两者之间的区别是什么?
联机事务处理 OLTP (on-line transaction processing);联机分析处理 OLAP (on-line analytical
processing);
OLTP 和 OLAP 的区别:
用户和系统的面向性 :OLTP 面向
文档评论(0)