集团大数据平台总体设计.docx

  1. 1、本文档共88页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
集团大数据平台总体设计目录1综述41.1项目背景41.2建设目标41.3需求分析41.3.1基础平台51.3.2企业画像应用62总体建设方案72.1平台框架设计理念72.2功能架构82.3技术架构92.4产品覆盖综述102.5数据分布架构112.6关键技术说明112.6.1云服务平台112.6.2Hadoop平台232.6.3元数据管理242.6.4数据治理312.6.5爬虫引擎362.6.6数据探索402.6.7自助分析412.6.8企业画像423技术方案特性453.1平台开放性453.2高性能463.2.1应用高性能463.2.2平台系统资源高性能463.2.3实时数据抽取473.2.4压缩流处理483.2.5库外处理与计算483.2.6分布式处理513.2.7多网卡支持523.3高可用性543.3.1Hadoop平台高可用性543.3.2ETL高可用性583.3.3应用高可用性593.4高可靠性603.5开发易用性613.6可维护性663.7弹性扩展能力703.8资源管控能力713.8.1多租户资源管控713.8.2任务级资源管控733.9平台监控能力793.9.1Hadoop平台监控793.9.2ETL任务监控813.10数据管控与平台管理能力823.11统一开发平台能力823.12前端展现能力833.13扩容及升级能力833.13.1平台基础能力扩容与升级833.13.2应用扩容与升级85综述项目背景互联网、云计算、物联网、及时通讯工具和社交网络的兴起和普及,特别是大数据技术的应用,正深刻改变着当前市场格局。达沃斯世界经济论坛发布的《大数据,大影响:国际发展的新可能》的报告宜称,大数据已成为与货币和黄金一样的一种新的经济资产类别。,美国总统办事室(EOP)公布了《大数据研究和发展规划》,把大数据研发应用从商业行为提升到国家战略层面。在这种新形式下,大数据项目将会作为整个集团的跨公司、跨部门、跨内外的数据综合服务平台,承载着互联网+业务的核心枢纽。该平台的主要建设目标是为集团及其全部相关机构提供全栈大数据服务,包括技术平台、数据应用及产品、数据服务。该平台的建设目标并不仅仅局限于使用大数据技术构建数据分析系统,而是基于云计算、云服务的理念,打造集团“数据即服务”的平台理念。通过整合集团、子公司、互联网+平台、第三方等数据,通过授权机制为集团本部、各子公司、合作伙伴、投资方等提供经营、决策等所需的相关大数据能力和数据服务。建设目标本期项目建设目标:为集团及其全部相关机构提供全栈式大数据服务,包括技术平台、数据应用及产品、数据服务;基于云计算、云服务的理念,打造集团“能力、数据即服务”的平台理念;为集团本部、各子公司、合作伙伴、投资方等提供经营、决策等所需的相关大数据基础能力和数据服务。需求分析本期大数据云服务平台项目包括大数据基础平台建设、企业画像应用两部分。其中数据云平台接入中信云平台,统一进行运营和对外提供服务。基础平台基础平台提供一站式大数据解决能力和一站式数据分析能力。平台系统支持PaaS层能力,承载用户创建、修改、删除计算与存储资源,创建、发布、与回收业务应用等平台管理功能以及元数据管理、数据质量等数据管控功能;平台系统支持DaaS层能力,即支持数据采集、存储(数据湖)、计算以及展现四大部分能力;平台系统支持SaaS层能力,支持数据的分发、共享、探索、以及协作等功能。采集部分支持通过探针、爬虫、ETL手段从数据源将数据录入该平台,从数据类型上看,采集部分支持结构化数据采集与非结构化数据采集;从实效性上看,平台支持实时数据采集、初始化数据采集以及增量数据采集;从业务层面看平台支持业务数据采集与第三方数据采集多个维度。存储部分负责将采集端收集的数据,以及平台内部处理后生成的数据永久性存放。从数据类型上看,平台支持结构化存储、半结构化存储以及非结构化存储;从使用方式上看可以平台支持归档数据存储、批处理数据存储以及在线热数据存储;从业务层面来看平台支持外部数据、子公司业务主数据以及互联网+平台数据存储。计算部分负责对存储区的数据进行操作,平台支持增删改查、分析统计、模糊检索、挖掘预测等功能。从数据类型上看,平台支持结构化数据计算(SQL)与半结构化/非结构化数据计算;而从使用方式上看,平台支持离线计算、在线应用以及实时处理。数据展现层支持开发运维展现与应用展现能力。该平台具有完整的可视化开发运维界面,能够通过图形的方式进行平台的状态与健康监控、性能分析、日志查询、资源管控等运维功能,以及在线开发、调试、部署与诊断功能。平台支持在BI报表,OLAP交互式分析、用户自由查询、交互式挖掘、模糊检索、移动端展示等可视化功能。平台基于云计算、云存储的理念,打造集团“数据即服务”的平台理念,该平台能够使集团将各个子公司、机构与部门

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档