从零开始学hadoop大数据分析配书资源从零开始学hadoop教学ppt 3 hdfs.pptx

下载文档

101
0
约4.48千字
约 37页
2021-04-10 发布于北京
举报
版权申诉
保障服务

从零开始学hadoop大数据分析配书资源从零开始学hadoop教学ppt 3 hdfs.pptx

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

HDFS;什么是分布式文件系统和HDFS HDFS系统结构 HDFS优点和缺点 NameNode、DataNode HDFS读文件流程 HDFS写文件流程;分布式文件系统（Distributed File System）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。;分布式文件系统是基于Master/Slave模式，通常一个分布式文件系统提供多个供用户访问的服务器。分布式文件系统一般都会提供备份和容错的功能分布式文件系统一般都会基于操作系统的本地文件系统分布式文件系统管理的物理资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。 ;传统文件系统最大的问题是容量和吞吐量的限制多用户多应用的并行读写是分布式文件系统产生的根源一块硬盘的读写性能，比不上多块硬盘的读写性能 1HDD=75M/sec 1000 HDDs=75G/sec 扩充存储空间的成本低廉可提供冗余备份可以为分布式计算提供基础;分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（Slave Node）或者也被称为“数据节点”(DataNode) ;HDFS Hadoop Distributed File System Goug Cutting/Luncene /GFS HDFS是一个使用Java实现的、分布式的、可横向扩展的文件系统 Hadoop核心组件; HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点（NameNode）和若干个数据节点（DataNode）。名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的;大数据集(大文件） HDFS适合存储大量文件，总存储量可以达到PB/EB HDFS适合存储文件，单个文件大小一般在几百M 文件数据适中基于廉价的普通硬件，可以容忍硬件出错系统中的某一台或者几台电脑出现故障简单的一致性模型 HDFS应用程序需要1次写入，多次读取文件的访问模式顺序的数据流访问 HDFS适合用于处理批量数??，而不适合于随机定位访问侧重高吞吐量的数据访问，可以容忍数据访问的高延迟为把“计算”移动到“数据”提供基础和便利;高容错性数据自动保存多个副本副本丢失后，自动恢复适合批处理移动计算而非数据数据位置暴露给计算框架适合大数据处理（百度网盘） GB 、TB 、甚至PB 级数据百万规模以上的文件数量 10K+ 节点可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制 ;不适合低延迟数据访问寻址时间长，适合读取大文件低延迟与高吞吐率不适合小文件存取占用NameNode 大量内存寻道时间超过读取时间并发写入、文件随机修改一个文件只能有一个写者仅支持append(日志）不允许修改文件 ;分布式文件系统的一种实现方式;如何存储-HDFS设计思想;HDFS架构;Block（块） NameNode DataNode 元数据客户端;文件被切分成固定大小的数据块默认数据块大小为128MB(hadoop2.x ）若文件大小不到128MB ，则单独存成一个block 一个文件存储方式按大小被切分成若干个block ，存储到不同节点上默认情况下每个block都有三个副本（平等） ;NameNode两个重要文件 fsimage：元数据镜像文件（保存文件系统的目录树） edits：元数据操作日志（针对目录树的修改操作），被写入共享存储系统中，比如NFS、JournalNode 元数据镜像内存中保存一份最新的内存中的镜像=fsimage+edits 合并fsimage与edits Edits文件过大将导致NameNode重启速度慢 Standby Namenode负责定期合并它们;NameNode（NN） NameNode主要功能：接受客户端的读写服务 NameNode保存metadata信息包括文件ownership和permissions 文件包含哪些块 Block保存在哪个DataNode（由DataNode启动时上报） NameNode的metadate信息在启动后会加载到内存 metadata存储到磁盘文件名为”fsimage” Block的位置信息不会保存