从零开始学hadoop大数据分析配书资源从零开始学hadoop教学ppt 3 hdfs.pptx

从零开始学hadoop大数据分析配书资源从零开始学hadoop教学ppt 3 hdfs.pptx

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HDFS;什么是分布式文件系统和HDFS HDFS系统结构 HDFS优点和缺点 NameNode、DataNode HDFS读文件流程 HDFS写文件流程;分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。;分布式文件系统是基于Master/Slave模式,通常一个分布式文件系统提供多个供用户访问的服务器。 分布式文件系统一般都会提供备份和容错的功能 分布式文件系统一般都会基于操作系统的本地文件系统 分布式文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。 ;传统文件系统最大的问题是容量和吞吐量的限制 多用户多应用的并行读写是分布式文件系统产生的根源 一块硬盘的读写性能,比不上多块硬盘的读写性能 1HDD=75M/sec 1000 HDDs=75G/sec 扩充存储空间的成本低廉 可提供冗余备份 可以为分布式计算提供基础;分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode) ;HDFS Hadoop Distributed File System Goug Cutting/Luncene /GFS HDFS是一个使用Java实现的、分布式的、可横向扩展的文件系统 Hadoop核心组件; HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的;大数据集(大文件) HDFS适合存储大量文件,总存储量可以达到PB/EB HDFS适合存储文件,单个文件大小一般在几百M 文件数据适中 基于廉价的普通硬件,可以容忍硬件出错 系统中的某一台或者几台电脑出现故障 简单的一致性模型 HDFS应用程序需要1次写入,多次读取文件的访问模式 顺序的数据流访问 HDFS适合用于处理批量数??,而不适合于随机定位访问 侧重高吞吐量的数据访问,可以容忍数据访问的高延迟 为把“计算”移动到“数据”提供基础和便利;高容错性 数据自动保存多个副本 副本丢失后,自动恢复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理 (百度网盘) GB 、TB 、甚至PB 级数据 百万规模以上的文件数量 10K+ 节点 可构建在廉价机器上 通过多副本提高可靠性 提供了容错和恢复机制 ;不适合低延迟数据访问 寻址时间长,适合读取大文件 低延迟与高吞吐率 不适合小文件存取 占用NameNode 大量内存 寻道时间超过读取时间 并发写入、文件随机修改 一个文件只能有一个写者 仅支持append(日志) 不允许修改文件 ;分布式文件系统的一种实现方式;如何存储-HDFS设计思想;HDFS架构;Block(块) NameNode DataNode 元数据 客户端;文件被切分成固定大小的数据块 默认数据块大小为128MB(hadoop2.x ) 若文件大小不到128MB ,则单独存成一个block 一个文件存储方式 按大小被切分成若干个block ,存储到不同节点上 默认情况下每个block都有三个副本(平等) ;NameNode两个重要文件 fsimage:元数据镜像文件(保存文件系统的目录树) edits:元数据操作日志(针对目录树的修改操作),被写入共享存储系统中 ,比如NFS、JournalNode 元数据镜像 内存中保存一份最新的 内存中的镜像=fsimage+edits 合并fsimage与edits Edits文件过大将导致NameNode重启速度慢 Standby Namenode负责定期合并它们;NameNode(NN) NameNode主要功能:接受客户端的读写服务 NameNode保存metadata信息包括 文件ownership和permissions 文件包含哪些块 Block保存在哪个DataNode(由DataNode启动时上报) NameNode的metadate信息在启动后会加载到内存 metadata存储到磁盘文件名为”fsimage” Block的位置信息不会保存

文档评论(0)

136****1820 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档