- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术如何应用亍
传统信息系统
提纲
大数据技术研究背景和问题
开源软件Apache Hadoop
大数据处理系统关键技术 大数据技术从互联网走向传统应用
背景:大规模数据计算
通信、网络、存储、传感器等电子信息技术飞速发展导致
数据规模极大增加 – Big Data
传统的存储并处理这些数据的技术手段遇到瓶颈
Search Engine
Data Warehousing
Log Processing/User
Behavior Analyzing
Processing 100TB datasets
Online/Realtime/Stream
ing Data Analysis
数据 为王
One node
Scanning@50MB/s = 35,000 min
1000 node
Scanning@50MB/s=35 min
背景 – 大数据的大问题
2020年:
数据量将达到35ZB,较2009年增大44倍
来源:IDC Digital Universe Study, May 2010
2020年:
60%以上的创造数据将因无法存储而丢失。
• Facebook用户每天上传3亿张照片,超过 500TB的数据增长量,100PB单集群存储 容量
• Google索引的在线数据2002年是5EB,到 2009年增长到280EB
• 淘宝网注册用户达到3.7亿,在线商品数达
到9亿,14PB海量数据存储
数据爆炸对数据存储不 处理效能提出了挑战!
背景 – 大数据的大问题
2020年:
数据量将达到35ZB,较2009年增大44倍
来源:IDC Digital Universe Study, May 2010
2020年:
60%以上的创造数据将因无法存储而丢失。
• Facebook用户每天上传3亿张照片,超过 500TB的数据增长量,100PB单集群存储 容量
• Google索引的在线数据2002年是5EB,到 2009年增长到280EB
• 淘宝网注册用户达到3.7亿,在线商品数达
到9亿,14PB海量数据存储
数据爆炸对数据存储不 处理效能提出了挑战!
• 高速发展的数据型互联网企业需要连续的系统扩展能力
数据快速增长不数据中心扩容周期缓慢的矛盾
• 如何维持低成本曲线和高性能曲线是现实问题
数据业务深度的丌断加强和数据处理性能现状的矛盾
背景:解决大数据问题的思路
背景:解决大数据问题的思路
海量数据存储
海量数据计算
提纲
大数据研究背景和问题
开源软件Apache Hadoop
大数据处理系统关键技术 大数据技术从互联网走向传统应用
Hadoop
Apache Nutch, 2002
NDFS + MapReduce, 2004
Hadoop, 2006
Apache Hadoop, 2008
/
Book:
/catalog/9780596521998//catalog/9780596521998/index.html
Clone of Google’s GFS and Written in Java
MapReduce • Does work with other languages
Can process large scale Web pages Runs on
Linux, Windows and more
Commodity hardware with high
failure rate
Doug Cutting, Apache软件基 金会主席
Hadoop is the most successful open source software after Linux.
Hadoop 组成部分
Hadoop is the most successful open source software after Linux.
MapReduce
HDFS
HBase
Hive
Hadoop 组成部分
HDFS
ftware after Linux.
apReduce
most successful open source so
M
HBase
Hive
Hadoop is the
Hadoop 组成部分
Hadoop HDFS体系结构
规模:10K nodes, 100 million files, 10 PB
特性:适合数据批处理;最大化吞吐率;允
许计算向数据迁移
优化:数据块副本、数据块放置策略、
缓存策略等
Sanjay Ghemawat, et. al., The Google File System, SOSP’03
Hadoop MapReduce处理流程
Dean Ghemawat: “MapReduce: Simplified Data Process
您可能关注的文档
- 从财务视角看企业的商业模式.pptx
- 从地球圈层看地理环境.pptx
- 从个人角度看企业人力资源管理常识.pptx
- 从跟单员到订单经理.pptx
- 从管理走向经营之阿米巴经营模式.pptx
- 从国外经验谈犯罪制图和犯罪防治.pptx
- 从合格到卓越(一般员工).pptx
- 从机制探讨他汀疗效与安全性培训课件.pptx
- 从绩效考核走向绩效管理.pptx
- 从经理到教练.pptx
- 原电池电动势的测定实验报告.pdf
- 与业主、设计、总包、监理和他承包人的配合措施.pdf
- 公司管理流程.pptx
- 2024_2025学年新教材高中地理第1章地球的运动素养综合训练新人教版选择性必修1.doc
- 2024_2025学年新教材高中地理第3章大气的运动第1节常见天气系统第1课时锋与天气分层作业新人教版选择性必修1.doc
- 2024_2025学年新教材高中地理第1章地球的运动第2节地球运动的地理意义第4课时正午太阳高度的变化四季更替和五带划分分层作业课件新人教版选择性必修1.pptx
- 2024_2025学年新教材高中地理第2章地表形态的塑造第2节构造地貌的形成第1课时地质构造与地貌课件新人教版选择性必修1.pptx
- 2024_2025学年新教材高中地理第1章地球的运动问题研究人类是否需要人造月亮课件新人教版选择性必修1.pptx
- 五片小雪花课件.pdf
- 2024_2025学年新教材高中地理第3章大气的运动第2节气压带和风带第1课时气压带和风带的形成分层作业课件新人教版选择性必修1.pptx
最近下载
- 北京市东城区2020-2021学年七年级下学期数学期末试卷.doc VIP
- 电梯规范要求gb7588-2020.doc VIP
- 20道中国民航机务维修岗位常见面试问题含HR常问问题考察点及参考回答.docx VIP
- 体操《燕式平衡》教案.doc
- 2023年全国卷高三数学真题试卷6套合集带答案解析.pdf
- 土建安全职业健康与环境保护(1).pptx VIP
- 血站项目可行性研究报告.docx
- (外文电子版资料)Pat Murphy - Rachel In Love.pdf
- 《会打喷嚏的帽子》幼儿园小班语言PPT课件.pptx VIP
- 第三十五课 学会问为什么 课件 二年级下册小学心理健康(北师大版).pptx
文档评论(0)