- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第一章
1、2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储
存、管理和()能力的数据集。
A:计算
B:访问
C:应用
D:分析
答案:分析
2、用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和()。
A:Variety
B:Vainly
C:Vagary
D:Valley
答案:Variety
3、大数据分析四个方面的工作主要是:数据分类、()、关联规则挖掘和时间序列预测。
A:数据统计
B:数据计算
C:数据聚类
D:数据清洗
答案:数据聚类
4、新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上
的。
A:对
B:错
答案:错
5、目前的大数据处理技术只能处理结构化数据。
A:对
B:错
答案:错
第二章
1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是()。
A:mdf
B:mdb
C:dbf
D:xls
答案:mdb
2、大多数日志文件的后缀名是()。
A:txt
B:csv
C:xml
D:log
答案:log
3、本课程重点介绍的weka软件的专有文件格式是()。
A:MongoDB
B:ARFF
C:value
D:keymap
答案:ARFF
4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。
A:专业性
B:排他性
C:一致性
D:共享性
答案:一致性
5、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目
标。
A:电话号码
B:关键词
C:网页地址
D:用户名
答案:网页地址
6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。
A:otd
B:jpg
C:png
D:gif
答案:otd
7、Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
A:对
B:错
答案:对
8、Excel不能导入txt或csv格式的文件。
A:对
B:错
答案:错
9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
A:对
B:错
答案:错
10、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
A:对
B:错
答案:对
第三章
1、使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2,
minPoints参数设置为5,忽略class属性,那么将形成()个簇。
A:1
B:2
C:3
D:4
答案:3
2、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为
4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,()
是错误的。
A:模型的最大似然估计值是-7.18
B:这组数据用算法迭代15次
C:第四个簇的先验概率是0.14
D:第四个簇的实例数为4
答案:第四个簇的实例数为4
3、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3
个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,()是错误。
A:这组数据用算法迭代四次
B:产生了三个中心点
C:聚合为3个簇,分别有7,3,4个实例
D:平方和误差为8.928
答案:这组数据用算法迭代四次
4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的
误差指标可知()。
A:LinearRegressi
文档评论(0)