统计平台介绍.pptVIP

统计平台介绍.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
TX无线产品部统计平台介绍 张定行 内容 一、平台数据流程 二、ETL工具 三、数据统计 四、调度系统 五、统计平台建设总结 一、统计流程介绍 二、ETL工具 ETL定义:Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载; 统计组ETL工具的特点: 1、简单;只实现数据的拉取、解压缩、简单的字段截取功能、入库功能; 2、灵活;自己用perl语言开发,功能可扩展; 3、高效;前台配置简单信息,后台就能实现日志的ETL功能; 二、ETL工具 后台执行方法: perl run_etl.pl YYYYMMDD table_name[:IP][::[test/extract/transform/load]] 说明: YYYYMMDD:执行的时间 table_name:表名称 IP:加入IP可以指定只执行某个IP的文件 [test/extract/transform[:debug]]:test只执行对文件是否存在的探测;extract指定只执行抽取操作;transform指定只执行转化操作(即只执行awk部分);load指定只执行入库操作; 二、ETL工具 工具化的目标:配置、简单、高效。 工具化的前提:规范日志格式(字段对齐,每个字段用|分割);强势要求,不符合规范的日志不接入。 日志格式: QQ号码|付费时间|付费金额 2100023200 2101023500 2101223200 三、数据统计 1、数据分层: ODS层数据、EDS层数据、 DM层数据; 2、数据周期:小时、日、周、月、季、年; 3、设计规范:表命名规范、字段命名规范、分区规范; 4、统计代码规范(前提是前面都规范了); 三、数据统计 四、调度系统 什么是调度系统? 对周期性需要频繁执行的脚本程序进行集中化管理,通过配置及依赖关系的定义,由系统自动拉起相应脚本执行,完成业务逻辑的处理,并能够实时的上报脚本运行状态,取代传统的crontab管理任务执行的方法; 为什么引入调度系统? crontab只能实现简单的调起功能,不能满足日益增长的脚本的运行需求; 五、统计平台建设总结 1、流程化 2、标准化 3、工具化 4、要做“简”法 5、可扩展性强 。。。。。。 * * 1、数据源:包括日志服务器的日志、数据库的数据、外部数据(FTP)等; 2、ETL服务器,负责从生产系统(数据源)中将日志拉到ETL服务器,进行解压,并截取需要的字段,转换成可以直接入库的数据;然后将入库数据导入到统计数据库对应的表中; 3、统计服务器,负责将入库的数据,按照统计代码的统计规则,生成报表展现的数据,并同步到查询机中; 4、查询机,只负责数据查询功能,不进行统计运算; 最简单的统计系统,一台机器就可以实现ETL,统计,查询的功能; 如果数据量大,运算压力比较大的化,ETL机器一定要和统计机器分开; 查询机也是必不可少的,查询机的好处:1、缓解又有统计机器造成的性能压力,提高查询速度;2、避免对一张表同时进行查询和修改,造成表死锁,表不能用;3、起到备份数据的作用,当某台机器坏了,起码还有数据可以看用。 1、自己开发,可以功能定制,功能想复杂就复杂,想简单就简单,灵活性强;并便于日后功能更新和维护;使用专业工具成本较高,不利于维护; 2、只实现简单的数据拉取、解压缩、简单的字段截取功能和入库功能;主要考虑:1)不破坏数据完整性,便于后期追踪;2)本来ETL工具就简单,无法实现复杂的数据整合处理; 3、通过前台配置和查询信息,便于操作和监控; 4、工具化的目标:简单、高效。 5、工具化的前提:规范日志格式(字段对齐,每个字段用|分割);强势要求,不符合规范的日志不接入; 6、日志规范化的原因还有一点:统计人员应该把更多的精力放在统计的设计上,而不应过于关注日志的处理; 1、数据分层: ODS数据(Operational Data Store)一般保存3~6月内数据。面向主题的、集成的、当前或接近当前的、不变的;用于生成EDS和DM数据,也可以用来查询明细数据,特别是交易明细; EDS数据(ENTERPRISE DATA STORE)企业级数据(类似于数据仓库),一般保存6个月~2年左右;从ODS上进行简单汇总而来,或者细化到用户主键的数据; DM数据(DATA MARKET)指报表数据,保存周期在1年以上或长期;只用于报表展现; 2、数据周期,数据按照时间建分区,并进行相应规则的命名; 3、设计规范:根据业务和数据分层,规定表命名的规范;根据字段含义统一字段命名;根据时间周期统一分区规范; 4、统计代码规范:统计代码规范依赖于前面的设计规范;统计代码规范了,利于

文档评论(0)

东山书苑 + 关注
实名认证
文档贡献者

业务以学生学习成长为中心,为外语培训、中小学基础教育、学前教育,提供各种学习资料支持服务。

1亿VIP精品文档

相关文档