7再大的数据也能绕过那道弯重点.docx

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
李德毅:再大的数据也能绕过那道弯李德毅中国工程院院士,中国大数据专家委员会顾问发表时间:2014-05-23 10:28:51关键字:?大数据云计算大会IT业云计算大数据挖掘PB时代技术有效性科学完整性大数据时代 在5月21日的第六届中国云计算大会上,李德毅院士发表了演讲,以下为演讲实录:在5月21日的第六届中国云计算大会上,李德毅院士发表了演讲各位同仁,尤其是年轻的IT工作者们,很高兴在这里跟大家分享我对云计算和大数据的一些认识。我的报告题目是“大数据挖掘”。?自从大数据引入了人们的视线之后,人们普遍讲的是三个字“大数据”。但是忽略了《自然》杂志的副标题——它讲的是PB时代的科学。本质上大数据的挑战是PB时代的科学的挑战。在这么一个大数据时代怎么做数据挖掘呢?《自然》杂志的副标题——它讲的是PB时代的科学人们用很多的V来形容大数据,其实大数据的主要来源有三个方面,第一:是这个地球,自然界的大数据,这么多的卫星绕着地球转,我们看看每天要下载多少数据量?第二:生命大数据、生物大数据,尤其是每一个人体的大数据也是一个重要的来源。第三:社交大数据:对于我们IT工作者来说,我们更关心的是社交大数据,每天你拿着手机、拿着笔记本来回折腾了半天,这些数据对你起作用了吗?大数据的主要来源有三个方面??PB时代对科学的挑战更是对包括数据挖掘在内的认知科 学的挑战。奥巴马就职演说当中,每一个人后面都有大数据的支撑,我点到谁,你就能告诉我他的大数据吗?一个人,一个社会的活动人非常了不起,他有他的身 份、情感、职业、年龄、性格等等,假如现在给你一张全家福,你能不能从他们的人脸识别当中告诉我谁是儿媳妇、谁是女婿?PB时代对科学的挑战更是对包括数据挖掘在内的认知科学的挑战。这么多人脸下,怎么把人脸识别清楚呢?现在我们北京市 有80万个摄像头,每天照着我们大家,我们可以利用摄像头做身份认证、年龄识别、情感计算、亲缘发现、心理识别、地区识别、民族识别,都很有用处。这种流 媒体主要的形态是非结构化的,特征之间的关联关系、设备算法的准确率等等,都严重的制约着大数据人脸挖掘的进度。由技术推动的计算机发展那么怎么办?我们还是要回归一下计算机所发展的历史,1936年天才数学家图灵提出来一个图灵模型,后来有一个计算机,把图灵模型转化为物理计算机,有三大块,一块叫做CPU,操作系统,还有一大块叫做内存和外存,还有一块就是输入和输出。把图灵模型转化为物理计算机,有三大块,一块叫做CPU,操作系统,还有一大块叫做内存和外存,还有一块就是输入和输出在计算机发展的头一个30年里,我们感兴趣最多的是 CPU、是操作系统,是软件、是中间件、是应用软件。这时候代表信息技术发展速度的可以用摩尔速度来表示,它告诉我们微电子发展是18个月可以翻一番的, 所以我们侧重于计算性能的提高,我们把这个时代叫做计算时代,计算,尤其是高性能计算机,人们花了很大的精力研究,它带动了存储,也带动了输入输出,这个 时间大概用了三四十年。计算领先、存储交互也跟着发展。在这样一个计算领先当中,我们主要做的是结构化数据的挖掘,我们要提起一个伟大的学者,他的名字叫埃德加,他在1970年提出一个关系模型,用二维表形式表示实体与实体间的联系。埃德加在1970年提出一个关系模型,用二维表形式表示实体与实体间的联系。??三四十年来,各行各业的数据库和数据仓库技术,以及从 数据库发现知识的数据挖掘成为巨大的信息产业。关于数据库之父,美国工程院院士获奖了1981年的图灵奖,他这篇论文是1970年写的,讲的是共享数据银 行的关系模型。关系数据库有严格的顶层设计,为构造良式关系,必须消除元组中不合适的依据依赖,通过第三范式、第四范式、甚至更多的范式分解数据表以阶级 数据冗余、异常等问题。我们每一个IT计算机本科生都学过这样的技术,对这样的关系运算,结果仍然是关系。数据库之父,美国工程院院士获奖了1981年的图灵奖,他这篇论文是1970年写的,讲的是共享数据银行的关系模型。只要数据在关系数据库中,总可以通过SQL语言,将结果输出,这就是Edgar的伟大之处。?关系代数是关系数据库的形式化理论和约束,先有顶层设计和数据结构,后填入清洗后的数据。数据围绕结构转,数据围绕程序转。用户无需关心数据的获取,存 储、分析以及提取过程。不再关系数据结构的内容和形式,唯一希望得到的是符合查询条件的结果。通过数据挖掘,可以从数据库中发现分类知识、关联知识,时序 知识、异常知识等等。随着数据库产业的膨大,人们对数据库已经不太满足了,于是把Databases说成是LargeDatabases……随着数据库产业的膨大,人们对数据库已经不太满足了,于是把Databases说成是LargeDatabases……但是不管怎么大,遇到了两个不可回避的挑战:第一是由

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档