大数据技术如何应用于传统的信息系统45.pptx

下载文档

0
0
约9.28千字
约 45页
2021-10-20 发布于重庆
举报
版权申诉
保障服务

大数据技术如何应用于传统的信息系统45.pptx

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据技术如何应用亍传统信息系统提纲大数据技术研究背景和问题开源软件Apache Hadoop 大数据处理系统关键技术大数据技术从互联网走向传统应用背景：大规模数据计算  通信、网络、存储、传感器等电子信息技术飞速发展导致数据规模极大增加 – Big Data  传统的存储并处理这些数据的技术手段遇到瓶颈 Search Engine Data Warehousing Log Processing/User Behavior Analyzing Processing 100TB datasets Online/Realtime/Stream ing Data Analysis 数据为王 One node Scanning@50MB/s = 35,000 min 1000 node Scanning@50MB/s=35 min 背景 – 大数据的大问题 2020年：数据量将达到35ZB，较2009年增大44倍来源：IDC Digital Universe Study, May 2010 2020年： 60%以上的创造数据将因无法存储而丢失。 • Facebook用户每天上传3亿张照片，超过 500TB的数据增长量，100PB单集群存储容量 • Google索引的在线数据2002年是5EB，到 2009年增长到280EB • 淘宝网注册用户达到3.7亿，在线商品数达到9亿，14PB海量数据存储数据爆炸对数据存储不处理效能提出了挑战！背景 – 大数据的大问题 2020年：数据量将达到35ZB，较2009年增大44倍来源：IDC Digital Universe Study, May 2010 2020年： 60%以上的创造数据将因无法存储而丢失。 • Facebook用户每天上传3亿张照片，超过 500TB的数据增长量，100PB单集群存储容量 • Google索引的在线数据2002年是5EB，到 2009年增长到280EB • 淘宝网注册用户达到3.7亿，在线商品数达到9亿，14PB海量数据存储数据爆炸对数据存储不处理效能提出了挑战！ • 高速发展的数据型互联网企业需要连续的系统扩展能力 数据快速增长不数据中心扩容周期缓慢的矛盾 • 如何维持低成本曲线和高性能曲线是现实问题 数据业务深度的丌断加强和数据处理性能现状的矛盾背景：解决大数据问题的思路背景：解决大数据问题的思路海量数据存储海量数据计算提纲大数据研究背景和问题开源软件Apache Hadoop 大数据处理系统关键技术大数据技术从互联网走向传统应用 Hadoop Apache Nutch, 2002 NDFS + MapReduce, 2004 Hadoop, 2006 Apache Hadoop, 2008 / Book: /catalog/9780596521998//catalog/9780596521998/index.html Clone of Google’s GFS and  Written in Java MapReduce • Does work with other languages Can process large scale Web pages  Runs on Linux, Windows and more Commodity hardware with high failure rate Doug Cutting， Apache软件基金会主席 Hadoop is the most successful open source software after Linux. Hadoop 组成部分 Hadoop is the most successful open source software after Linux. MapReduce HDFS HBase Hive Hadoop 组成部分 HDFS ftware after Linux. apReduce most successful open source so M HBase Hive Hadoop is the Hadoop 组成部分 Hadoop HDFS体系结构规模：10K nodes, 100 million files, 10 PB 特性：适合数据批处理；最大化吞吐率；允许计算向数据迁移优化：数据块副本、数据块放置策略、缓存策略等 Sanjay Ghemawat, et. al., The Google File System, SOSP’03 Hadoop MapReduce处理流程 Dean Ghemawat: “MapReduce: Simplified Data Process