- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop运维经验分享;
2008年加入阿里巴巴
云梯管理员
2011年加入SDO
负责搭建并维护hadoop集群
2012年加入ebay;hadoop集群搭建
监控
集群性能调优
Hadoop如何被搞垮的;
Master
memory
磁盘 sas + raid10
active-backup bonding
IP alias
;Editlog
本地一份,NFS一份
NameQuota SpaceQuota
权限控制
/tmp
Trash
Rack awareness
;
控制内存
mapred.jobtracker.maxtasks.per.job
erval
pleteuserjobs.maximum
mapreduce.job.counters.limit;
内存不能少于Namenode
控制做checkpoint的次数及时间
fs.checkpoint.period
fs.checkpoint.size;Disk
2T * 12
ext4
noatime
定期更换坏磁盘,一次一台
网络
如果条件允许,做汇聚绑定(mode 4 bonding)
内存
24G;内存:
map + reduce + tasktracker + datanode
网络
磁盘
注意wio
;End to end
检测hdfs是否可用,是否能跑map/reduce
10分钟一次
fsck
GC
Full GC
;
Tasktracker Datanode数量
异常作业监控
大作业
读写数据特别多
运行时间特别长;
GC策略
Editlog
锁
调度;
推荐使用CMS
停顿时间短
/technetwork/java/javase/gc-tuning-6-140523.html#cms
指定heap内存的初始值和最大值相等
-Xms -Xmx;;
所有更改FSNamesystem的RPC Call都需要等待Editlog sync到磁盘才能返回
;减少持有锁的时间
减少锁频率
blockReport
减少锁粒度
使用读写锁
;调度效率
运行效率
Map locality
小作业
重要的作业
;
创建大堆小文件
创建大堆文件名非常长的文件
DDOS
;
大量的job tasks
使用大量的counter
往标准输出和标准错误输出大量的信息
;Hadoop bug
Linux内核bug
JVM bug
交换机故障
爬虫通过job tracker web端抓取job history文件
Session 30分钟过期,导致内存暴涨,频繁full gc
;误删除数据
误停止master
IP alias 被抢
分发不完整的hadoop-site.xml到slave,导致作业失败
拔错硬盘,格错系统
;
QA
文档评论(0)