有关大数据分析的月总结.docx

下载文档 降价啦

4
0
约1.08万字
约 16页
2019-10-09 发布于江苏
举报
版权申诉
保障服务

有关大数据分析的月总结.docx

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于大数据分析领域的综述报告 1 现状分析 1.1 背景介绍理解大数据分析这个专业领域，有必要先了解大数据相比于传统数据形式所具有的不同特征，主要包括以下四点（4V特性）： 1数据量大。根据互联网数据中心（IDC）的报告显示，目前的数据容量为1.8万亿GB，2020年全球数据总量将超40ZB。数据来源包括以微博为代表的Web数据，Facebook、QQ为代表的社交网络数据，阿里巴巴为代表的电子商务数据，由各类传感器、摄像头采集到的物联网数据，以及来自医疗、制造、金融等传统行业信息化后产生的数据。 2 数据流动性大，增长迅速，时效性高。最具代表性的就是Web数据和社交网络数据，Facebook每天生成的日志数据达到300TB以上。 3 数据类型多样化，包括结构化、半结构化、非结构化的数据，根据IDC的报告显示，1.8万亿GB的数据中，非结构化数据占到80~90%之间。 4 数据价值高密度低。在海量数据中，包含有用信息的数据比例较低。而当我们借助传感器、数据采集设备获得海量数据后，再通过挖掘形成知识，人们还想知道这些数据代表了什么，面对这些数据我们应该采取的应对策略。因此，形成了大数据分析的概念，即：对海量数据进行分析，从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。大数据代表了信息科技和商业世界的联合，将大数据分析嵌入产品生产和服务的过程已经成为一种趋势。大数据产业在中国的发展主要分为四个过程，如图1所示：图1 大数据产业在中国的发展过程目前，我国大数据产业处于高速发展期，多种商业模式得到市场印证，新产品和服务不断推出，细分市场走向差异化竞争。大数据分析带来的直接经济效益也是很可观的。来自麦肯锡2012 年大数据报告中的一组数据显示，大数据产业为美国医疗系统带来每年3000 亿美元的收益; 为欧洲公共管理部门带来2500 亿欧元的收益; 为零售业增加60% 的净利润; 为制造业减少50% 的产品研发等成本。2015 年超过85%的财富500 强企业将在大数据竞争中失去优势。据IDC 预测，大数据技术与服务市场将从2010 年的32 亿美元攀升到2015 年的169 亿美元，实现40%的年增长率(是IT与通信产业增长率的7 倍)。大数据应用在全球七大重点领域（教育、交通、消费、电力、资源、大健康及金融）都存在巨大的潜在价值。图2为中国的2011-2016年大数据产业的营收规模，如图所示，大数据产业规模以25%以上的年增长率在快速发展着，预计2016-2018年中国大数据市场规模还将维持40%左右的高速增长。图2 2011-2016年中国的大数据产业营收规模 1.2 技术介绍及新挑战 1.2.1 技术概述及进展从大数据的处理过程来看，分为以下几个步骤：大数据采集、大数据预处理、大数据存储及管理、大数据分析、大数据展现和应用，分布式技术以及非传统关系型的NoSQL数据库技术的发展，能够应对海量数据的存储管理及预处理，这也为后续的数据分析提供了技术支撑。大数据展现和应用则需要借助可视化技术，将数据挖掘结果以一种直观，可理解的方式呈现，并结合应用领域的专业知识，将数据认知，转化为可帮助决策的有用信息。对于本文论述的大数据分析技术，其核心是数据挖掘，数据挖掘是在大型数据存储库中，自动地发现有用信息的过程，发现先前未知的有用模式，还可以预测未来的观测结果，主要表现为对现有数据进行基于各种算法的计算。不同于传统的数据分析技术，数据挖掘算法必须要满足可伸缩性，并具备对高维属性的、大量异种或复杂的数据进行处理的能力，另外，当数据分布于多个机构的资源中，还需要相应地开发分布式的数据挖掘算法。为此，数据挖掘技术吸收了统计学、人工智能、模式识别和机器学习等领域的思想，图3展示了数据挖掘与其他学科之间的关系：图3 数据挖掘汇集的学科知识数据挖掘的任务主要有四类：1. 分类和预测，分类是预测分类标号，对已知的训练数据集表现出来的特性，构造相应地分类器，应用比较广泛的分类算法有决策树、贝叶斯分类器、人工神经网络和支持向量机，而预测则是建立连续值函数模型。2. 关联分析，其目标是发现数据中强关联特征的模式，著名的关联分析方法有Agrawal R提出的挖掘布尔关联规则频繁项集的Apriori算法，此外还有Han J等提出的解决Apriori算法缺陷的不产生候选挖掘频繁项集的频繁模式树算法等；3. 聚类分析，旨在发现紧密相关的观测值组群，主流的算法有K均值、凝聚层次聚类和DBSCAN，能适用于大数据、处理不同类型数据、发现任意形状的簇、处理高维数据、具有处理噪声的能力和聚类结果可解释、易使用是聚类分析的目标；4. 异常检测，任务是识别其特征显著不同于其他数据的观测值。近年来，大数据领域的数据挖掘方面的研究进展主要包括可扩展