2012华东运维技术大会的资料--hadoop运维经验分享.pptx

2012华东运维技术大会的资料--hadoop运维经验分享.pptx

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop运维经验分享; 2008年加入阿里巴巴 云梯管理员 2011年加入SDO 负责搭建并维护hadoop集群 2012年加入ebay;hadoop集群搭建 监控 集群性能调优 Hadoop如何被搞垮的; Master memory 磁盘 sas + raid10 active-backup bonding IP alias ;Editlog 本地一份,NFS一份 NameQuota SpaceQuota 权限控制 /tmp Trash Rack awareness ; 控制内存 mapred.jobtracker.maxtasks.per.job erval pleteuserjobs.maximum mapreduce.job.counters.limit; 内存不能少于Namenode 控制做checkpoint的次数及时间 fs.checkpoint.period fs.checkpoint.size;Disk 2T * 12 ext4 noatime 定期更换坏磁盘,一次一台 网络 如果条件允许,做汇聚绑定(mode 4 bonding) 内存 24G;内存: map + reduce + tasktracker + datanode 网络 磁盘 注意wio ;End to end 检测hdfs是否可用,是否能跑map/reduce 10分钟一次 fsck GC Full GC ; Tasktracker Datanode数量 异常作业监控 大作业 读写数据特别多 运行时间特别长; GC策略 Editlog 锁 调度; 推荐使用CMS 停顿时间短 /technetwork/java/javase/gc-tuning-6-140523.html#cms 指定heap内存的初始值和最大值相等 -Xms -Xmx;; 所有更改FSNamesystem的RPC Call都需要等待Editlog sync到磁盘才能返回 ;减少持有锁的时间 减少锁频率 blockReport 减少锁粒度 使用读写锁 ;调度效率 运行效率 Map locality 小作业 重要的作业 ; 创建大堆小文件 创建大堆文件名非常长的文件 DDOS ; 大量的job tasks 使用大量的counter 往标准输出和标准错误输出大量的信息 ;Hadoop bug Linux内核bug JVM bug 交换机故障 爬虫通过job tracker web端抓取job history文件 Session 30分钟过期,导致内存暴涨,频繁full gc ;误删除数据 误停止master IP alias 被抢 分发不完整的hadoop-site.xml到slave,导致作业失败 拔错硬盘,格错系统 ; QA

文档评论(0)

wxc6688 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档