有关大数据分析的月总结.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于大数据分析领域的综述报告 1 现状分析 1.1 背景介绍 理解大数据分析这个专业领域,有必要先了解大数据相比于传统数据形式所具有的不同特征,主要包括以下四点(4V特性): 1数据量大。根据互联网数据中心(IDC)的报告显示,目前的数据容量为1.8万亿GB,2020年全球数据总量将超40ZB。数据来源包括以微博为代表的Web数据,Facebook、QQ为代表的社交网络数据,阿里巴巴为代表的电子商务数据,由各类传感器、摄像头采集到的物联网数据,以及来自医疗、制造、金融等传统行业信息化后产生的数据。 2 数据流动性大,增长迅速,时效性高。最具代表性的就是Web数据和社交网络数据,Facebook每天生成的日志数据达到300TB以上。 3 数据类型多样化,包括结构化、半结构化、非结构化的数据,根据IDC的报告显示,1.8万亿GB的数据中,非结构化数据占到80~90%之间。 4 数据价值高密度低。在海量数据中,包含有用信息的数据比例较低。 而当我们借助传感器、数据采集设备获得海量数据后,再通过挖掘形成知识,人们还想知道这些数据代表了什么,面对这些数据我们应该采取的应对策略。因此,形成了大数据分析的概念,即:对海量数据进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。大数据代表了信息科技和商业世界的联合,将大数据分析嵌入产品生产和服务的过程已经成为一种趋势。 大数据产业在中国的发展主要分为四个过程,如图1所示: 图1 大数据产业在中国的发展过程 目前,我国大数据产业处于高速发展期,多种商业模式得到市场印证,新产品和服务不断推出,细分市场走向差异化竞争。 大数据分析带来的直接经济效益也是很可观的。来自麦肯锡2012 年大数据报告中的一组数据显示,大数据产业为美国医疗系统带来每年3000 亿美元的收益; 为欧洲公共管理部门带来2500 亿欧元的收益; 为零售业增加60% 的净利润; 为制造业减少50% 的产品研发等成本。2015 年超过85%的财富500 强企业将在大数据竞争中失去优势。据IDC 预测,大数据技术与服务市场将从2010 年的32 亿美元攀升到2015 年的169 亿美元,实现40%的年增长率(是IT与通信产业增长率的7 倍)。大数据应用在全球七大重点领域(教育、交通、消费、电力、资源、大健康及金融)都存在巨大的潜在价值。图2为中国的2011-2016年大数据产业的营收规模,如图所示,大数据产业规模以25%以上的年增长率在快速发展着,预计2016-2018年中国大数据市场规模还将维持40%左右的高速增长。 图2 2011-2016年中国的大数据产业营收规模 1.2 技术介绍及新挑战 1.2.1 技术概述及进展 从大数据的处理过程来看,分为以下几个步骤:大数据采集、大数据预处理、大数据存储及管理、大数据分析、大数据展现和应用,分布式技术以及非传统关系型的NoSQL数据库技术的发展,能够应对海量数据的存储管理及预处理,这也为后续的数据分析提供了技术支撑。大数据展现和应用则需要借助可视化技术,将数据挖掘结果以一种直观,可理解的方式呈现,并结合应用领域的专业知识,将数据认知,转化为可帮助决策的有用信息。对于本文论述的大数据分析技术,其核心是数据挖掘,数据挖掘是在大型数据存储库中,自动地发现有用信息的过程,发现先前未知的有用模式,还可以预测未来的观测结果,主要表现为对现有数据进行基于各种算法的计算。不同于传统的数据分析技术,数据挖掘算法必须要满足可伸缩性,并具备对高维属性的、大量异种或复杂的数据进行处理的能力,另外,当数据分布于多个机构的资源中,还需要相应地开发分布式的数据挖掘算法。为此,数据挖掘技术吸收了统计学、人工智能、模式识别和机器学习等领域的思想,图3展示了数据挖掘与其他学科之间的关系: 图3 数据挖掘汇集的学科知识 数据挖掘的任务主要有四类:1. 分类和预测,分类是预测分类标号,对已知的训练数据集表现出来的特性,构造相应地分类器,应用比较广泛的分类算法有决策树、贝叶斯分类器、人工神经网络和支持向量机,而预测则是建立连续值函数模型。2. 关联分析,其目标是发现数据中强关联特征的模式,著名的关联分析方法有Agrawal R提出的挖掘布尔关联规则频繁项集的Apriori算法,此外还有Han J等提出的解决Apriori算法缺陷的不产生候选挖掘频繁项集的频繁模式树算法等;3. 聚类分析,旨在发现紧密相关的观测值组群,主流的算法有K均值、凝聚层次聚类和DBSCAN,能适用于大数据、处理不同类型数据、发现任意形状的簇、处理高维数据、具有处理噪声的能力和聚类结果可解释、易使用是聚类分析的目标;4. 异常检测,任务是识别其特征显著不同于其他数据的观测值。 近年来,大数据领域的数据挖掘方面的研究进展主要包括可扩展

文档评论(0)

137****0427 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档