7再大的数据也能绕过那道弯重点.docx

下载文档 降价啦

5
0
约5.88千字
约 26页
2017-03-21 发布于湖北
举报
版权申诉
保障服务

7再大的数据也能绕过那道弯重点.docx

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

李德毅：再大的数据也能绕过那道弯李德毅中国工程院院士，中国大数据专家委员会顾问发表时间：2014-05-23 10:28:51关键字:?大数据云计算大会IT业云计算大数据挖掘PB时代技术有效性科学完整性大数据时代在5月21日的第六届中国云计算大会上，李德毅院士发表了演讲，以下为演讲实录：在5月21日的第六届中国云计算大会上，李德毅院士发表了演讲各位同仁，尤其是年轻的IT工作者们，很高兴在这里跟大家分享我对云计算和大数据的一些认识。我的报告题目是“大数据挖掘”。?自从大数据引入了人们的视线之后，人们普遍讲的是三个字“大数据”。但是忽略了《自然》杂志的副标题——它讲的是PB时代的科学。本质上大数据的挑战是PB时代的科学的挑战。在这么一个大数据时代怎么做数据挖掘呢？《自然》杂志的副标题——它讲的是PB时代的科学人们用很多的V来形容大数据，其实大数据的主要来源有三个方面，第一：是这个地球，自然界的大数据，这么多的卫星绕着地球转，我们看看每天要下载多少数据量？第二：生命大数据、生物大数据，尤其是每一个人体的大数据也是一个重要的来源。第三：社交大数据：对于我们IT工作者来说，我们更关心的是社交大数据，每天你拿着手机、拿着笔记本来回折腾了半天，这些数据对你起作用了吗？大数据的主要来源有三个方面??PB时代对科学的挑战更是对包括数据挖掘在内的认知科学的挑战。奥巴马就职演说当中，每一个人后面都有大数据的支撑，我点到谁，你就能告诉我他的大数据吗？一个人，一个社会的活动人非常了不起，他有他的身份、情感、职业、年龄、性格等等，假如现在给你一张全家福，你能不能从他们的人脸识别当中告诉我谁是儿媳妇、谁是女婿?PB时代对科学的挑战更是对包括数据挖掘在内的认知科学的挑战。这么多人脸下，怎么把人脸识别清楚呢？现在我们北京市有80万个摄像头，每天照着我们大家，我们可以利用摄像头做身份认证、年龄识别、情感计算、亲缘发现、心理识别、地区识别、民族识别，都很有用处。这种流媒体主要的形态是非结构化的，特征之间的关联关系、设备算法的准确率等等，都严重的制约着大数据人脸挖掘的进度。由技术推动的计算机发展那么怎么办？我们还是要回归一下计算机所发展的历史，1936年天才数学家图灵提出来一个图灵模型，后来有一个计算机，把图灵模型转化为物理计算机，有三大块，一块叫做CPU，操作系统，还有一大块叫做内存和外存，还有一块就是输入和输出。把图灵模型转化为物理计算机，有三大块，一块叫做CPU，操作系统，还有一大块叫做内存和外存，还有一块就是输入和输出在计算机发展的头一个30年里，我们感兴趣最多的是 CPU、是操作系统，是软件、是中间件、是应用软件。这时候代表信息技术发展速度的可以用摩尔速度来表示，它告诉我们微电子发展是18个月可以翻一番的，所以我们侧重于计算性能的提高，我们把这个时代叫做计算时代，计算，尤其是高性能计算机，人们花了很大的精力研究，它带动了存储，也带动了输入输出，这个时间大概用了三四十年。计算领先、存储交互也跟着发展。在这样一个计算领先当中，我们主要做的是结构化数据的挖掘，我们要提起一个伟大的学者，他的名字叫埃德加，他在1970年提出一个关系模型，用二维表形式表示实体与实体间的联系。埃德加在1970年提出一个关系模型，用二维表形式表示实体与实体间的联系。??三四十年来，各行各业的数据库和数据仓库技术，以及从数据库发现知识的数据挖掘成为巨大的信息产业。关于数据库之父，美国工程院院士获奖了1981年的图灵奖，他这篇论文是1970年写的，讲的是共享数据银行的关系模型。关系数据库有严格的顶层设计，为构造良式关系，必须消除元组中不合适的依据依赖，通过第三范式、第四范式、甚至更多的范式分解数据表以阶级数据冗余、异常等问题。我们每一个IT计算机本科生都学过这样的技术，对这样的关系运算，结果仍然是关系。数据库之父，美国工程院院士获奖了1981年的图灵奖，他这篇论文是1970年写的，讲的是共享数据银行的关系模型。只要数据在关系数据库中，总可以通过SQL语言，将结果输出，这就是Edgar的伟大之处。?关系代数是关系数据库的形式化理论和约束，先有顶层设计和数据结构，后填入清洗后的数据。数据围绕结构转，数据围绕程序转。用户无需关心数据的获取，存储、分析以及提取过程。不再关系数据结构的内容和形式，唯一希望得到的是符合查询条件的结果。通过数据挖掘，可以从数据库中发现分类知识、关联知识，时序知识、异常知识等等。随着数据库产业的膨大，人们对数据库已经不太满足了，于是把Databases说成是LargeDatabases……随着数据库产业的膨大，人们对数据库已经不太满足了，于是把Databases说成是LargeDatabases……但是不管怎么大，遇到了两个不可回避的挑战：第一是由