大数据培训课程flume ng.pptxVIP

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

深入浅出hadoop

课程安排flume的简介flume特性flume框架flume的安装flume的配置使用

Flume是什么收集、聚合事件流数据的分布式框架通常用于log数据?采用ad-hoc方案,明显优点如下:??可靠的、可伸缩、可管理、可定制、高性能?声明式配置,可以动态更新配置?提供上下文路由功能?支持负载均衡和故障转移?功能丰富?完全的可扩展数据收集的框架

Flume的dataflow(数据流)dataflow描述了数据从产生,传输、处理并最终写入目标的一条路径。数据的采集的流向!

Flume的可靠性可靠性:当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。),Storeonfailure(这也是scribe采用的策略,当数据接收方crash时,将数据写到本地,待恢复后,继续发送),Besteffort(数据发送到接收方后,不会进行确认)。

Flume的可扩展性可扩展性:Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。其中,所有agent和collector由master统一管理,这使得系统容易监控和维护,且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避免了单点故障问题。功能可扩展性:用户可以根据需要添加自己的agent,collector或者storage。此外,Flume自带了很多组件,包括各种agent(file,syslog等),collector和storage(file,HDFS等)。

Flume的可管理性可管理性:所有agent和Collector由master统一管理,这使得系统便于维护。多master情况,Flume利用ZooKeeper和gossip,保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况,且可以对各个数据源配置和动态加载。Flume提供了web和shellscriptcommand两种形式对数据流进行管理。

核心概念Event:一条数据?Client:生产数据,运行在一个独立的线程。Agent?Sources、Channels、Sinks?其他组件:Interceptors、Channel?Selectors、Sink?Processor

Flume的clientClient:生产数据,运行在一个独立的线程。

Flume的SourceSource:从Client收集数据,传递给Channel。可以接收外部源发送过来的数据。不同的source,可以接受不同的数据格式。比如有目录池(spoolingdirectory)数据源,可以监控指定文件夹中的新文件变化,如果目录中有文件产生,就会立刻读取其内容。

Flume的ChannelChannel:是一个存储地,接收source的输出,直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后,可以自动重启,不会造成数据丢失,因此很可靠。

Flume的EventsFlumeNG传输的数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。

Flume的Agenttext(“filename”):将文件filename作为数据源,按行发送tail(“filename”):探测filename新产生的数据,按行发送出去fsyslogTcp(5140):监听TCP的5140端口,并且接收到的数据发送出去tailDir(“dirname”[,fileregex=.*[,startFromEnd=false[,recurseDepth=0]]]):监听目录中的文件末尾,使用正则去选定需要监听的文件(不包含目录),recurseDepth为递归监听其下子目录的深度

Flume的sinkconsole[(format)]:直接将将数据显示在consolr上text(“txtfile”):将数据写到文件txtfile中dfs(“dfsfile”):将数据写到HDFS上的dfsfile文件中syslogTcp(“host”,port):将数据通过TCP传递给host节点agentSink[(machine[,port])]:等价于agentE2ESink,如果省略,machine参数,默认使用flume.collector.event.host与flume.

文档评论(0)

fuwuzhishi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档