大数据技术如何应用于传统的信息系统45.pptx

大数据技术如何应用于传统的信息系统45.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术如何应用亍 传统信息系统 提纲 大数据技术研究背景和问题 开源软件Apache Hadoop 大数据处理系统关键技术 大数据技术从互联网走向传统应用 背景:大规模数据计算  通信、网络、存储、传感器等电子信息技术飞速发展导致 数据规模极大增加 – Big Data  传统的存储并处理这些数据的技术手段遇到瓶颈 Search Engine Data Warehousing Log Processing/User Behavior Analyzing Processing 100TB datasets Online/Realtime/Stream ing Data Analysis 数据 为王 One node Scanning@50MB/s = 35,000 min 1000 node Scanning@50MB/s=35 min 背景 – 大数据的大问题 2020年: 数据量将达到35ZB,较2009年增大44倍 来源:IDC Digital Universe Study, May 2010 2020年: 60%以上的创造数据将因无法存储而丢失。 • Facebook用户每天上传3亿张照片,超过 500TB的数据增长量,100PB单集群存储 容量 • Google索引的在线数据2002年是5EB,到 2009年增长到280EB • 淘宝网注册用户达到3.7亿,在线商品数达 到9亿,14PB海量数据存储 数据爆炸对数据存储不 处理效能提出了挑战! 背景 – 大数据的大问题 2020年: 数据量将达到35ZB,较2009年增大44倍 来源:IDC Digital Universe Study, May 2010 2020年: 60%以上的创造数据将因无法存储而丢失。 • Facebook用户每天上传3亿张照片,超过 500TB的数据增长量,100PB单集群存储 容量 • Google索引的在线数据2002年是5EB,到 2009年增长到280EB • 淘宝网注册用户达到3.7亿,在线商品数达 到9亿,14PB海量数据存储 数据爆炸对数据存储不 处理效能提出了挑战! • 高速发展的数据型互联网企业需要连续的系统扩展能力 数据快速增长不数据中心扩容周期缓慢的矛盾 • 如何维持低成本曲线和高性能曲线是现实问题 数据业务深度的丌断加强和数据处理性能现状的矛盾 背景:解决大数据问题的思路 背景:解决大数据问题的思路 海量数据存储 海量数据计算 提纲 大数据研究背景和问题 开源软件Apache Hadoop 大数据处理系统关键技术 大数据技术从互联网走向传统应用 Hadoop Apache Nutch, 2002 NDFS + MapReduce, 2004 Hadoop, 2006 Apache Hadoop, 2008 / Book: /catalog/9780596521998//catalog/9780596521998/index.html Clone of Google’s GFS and  Written in Java MapReduce • Does work with other languages Can process large scale Web pages  Runs on Linux, Windows and more Commodity hardware with high failure rate Doug Cutting, Apache软件基 金会主席 Hadoop is the most successful open source software after Linux. Hadoop 组成部分 Hadoop is the most successful open source software after Linux. MapReduce HDFS HBase Hive Hadoop 组成部分 HDFS ftware after Linux. apReduce most successful open source so M HBase Hive Hadoop is the Hadoop 组成部分 Hadoop HDFS体系结构 规模:10K nodes, 100 million files, 10 PB 特性:适合数据批处理;最大化吞吐率;允 许计算向数据迁移 优化:数据块副本、数据块放置策略、 缓存策略等 Sanjay Ghemawat, et. al., The Google File System, SOSP’03 Hadoop MapReduce处理流程 Dean Ghemawat: “MapReduce: Simplified Data Process

您可能关注的文档

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档