- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HDFS;什么是分布式文件系统和HDFS
HDFS系统结构
HDFS优点和缺点
NameNode、DataNode
HDFS读文件流程
HDFS写文件流程;分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。;分布式文件系统是基于Master/Slave模式,通常一个分布式文件系统提供多个供用户访问的服务器。
分布式文件系统一般都会提供备份和容错的功能
分布式文件系统一般都会基于操作系统的本地文件系统
分布式文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。
;传统文件系统最大的问题是容量和吞吐量的限制
多用户多应用的并行读写是分布式文件系统产生的根源
一块硬盘的读写性能,比不上多块硬盘的读写性能
1HDD=75M/sec
1000 HDDs=75G/sec
扩充存储空间的成本低廉
可提供冗余备份
可以为分布式计算提供基础;分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)
;HDFS
Hadoop Distributed File System
Goug Cutting/Luncene /GFS
HDFS是一个使用Java实现的、分布式的、可横向扩展的文件系统
Hadoop核心组件; HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的;大数据集(大文件)
HDFS适合存储大量文件,总存储量可以达到PB/EB
HDFS适合存储文件,单个文件大小一般在几百M
文件数据适中
基于廉价的普通硬件,可以容忍硬件出错
系统中的某一台或者几台电脑出现故障
简单的一致性模型
HDFS应用程序需要1次写入,多次读取文件的访问模式
顺序的数据流访问
HDFS适合用于处理批量数??,而不适合于随机定位访问
侧重高吞吐量的数据访问,可以容忍数据访问的高延迟
为把“计算”移动到“数据”提供基础和便利;高容错性
数据自动保存多个副本
副本丢失后,自动恢复
适合批处理
移动计算而非数据
数据位置暴露给计算框架
适合大数据处理 (百度网盘)
GB 、TB 、甚至PB 级数据
百万规模以上的文件数量
10K+ 节点
可构建在廉价机器上
通过多副本提高可靠性
提供了容错和恢复机制
;不适合低延迟数据访问
寻址时间长,适合读取大文件
低延迟与高吞吐率
不适合小文件存取
占用NameNode 大量内存
寻道时间超过读取时间
并发写入、文件随机修改
一个文件只能有一个写者
仅支持append(日志)
不允许修改文件
;分布式文件系统的一种实现方式;如何存储-HDFS设计思想;HDFS架构;Block(块)
NameNode
DataNode
元数据
客户端;文件被切分成固定大小的数据块
默认数据块大小为128MB(hadoop2.x )
若文件大小不到128MB ,则单独存成一个block
一个文件存储方式
按大小被切分成若干个block ,存储到不同节点上
默认情况下每个block都有三个副本(平等)
;NameNode两个重要文件
fsimage:元数据镜像文件(保存文件系统的目录树)
edits:元数据操作日志(针对目录树的修改操作),被写入共享存储系统中 ,比如NFS、JournalNode
元数据镜像
内存中保存一份最新的
内存中的镜像=fsimage+edits
合并fsimage与edits
Edits文件过大将导致NameNode重启速度慢
Standby Namenode负责定期合并它们;NameNode(NN)
NameNode主要功能:接受客户端的读写服务
NameNode保存metadata信息包括
文件ownership和permissions
文件包含哪些块
Block保存在哪个DataNode(由DataNode启动时上报)
NameNode的metadate信息在启动后会加载到内存
metadata存储到磁盘文件名为”fsimage”
Block的位置信息不会保存
您可能关注的文档
最近下载
- 运算律练习题(50道).pdf
- 2023年河南科技大学计算机科学与技术专业《计算机网络》科目期末试卷A(有答案).docx VIP
- 2023年河南科技大学计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
- 医院评审办公室工作制度.docx VIP
- 2024年中考押题预测卷【上海卷】-数学(全解全析).docx
- 安川达AC500系列变频器说明书.doc
- 2024年首届全国“红旗杯”班组长大赛考试题库-中(多选题汇总).docx VIP
- 医院等级评审医疗组现场检查路径.docx
- BOSE博士 Lifestyle 650 家庭娱乐系统 用户指南支持 简体中文.pdf
- 糖尿病患者随访管理PPT参考课件.ppt
文档评论(0)