大数据技术分享.ppt

下载文档 降价啦

113
0
约3.05千字
约 22页
2016-12-03 发布于重庆
举报
版权申诉
保障服务

大数据技术分享.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据技术分享

大数据技术分享 NoSql数据库 Hbase是什么 HBase是Apache Hadoop中的一个子项目，Hbase依托于Hadoop的HDFS作为最基本存储基础单元，通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作，如下图所示： HRegionServer、HRegion、Hmemcache、Hlog、HStore之间的关系 HBase表中的数据与HRegionServer的分布关系为什么采用HBase？ HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式，这样方面读写大数据的数据。 hbase是基于列存储，查询速度为秒级一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的，因此用户可以给行定义各种不同的列什么是列存储？什么是列存储？列存储不同于传统的关系型数据库，其数据在表中是按行存储的，列方式所带来的重要好处之一就是，由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别： MySQL中现有的表结构迁移至HBase中的表结构原来系统中有2张表blogtable和comment表，采用HBase后只有一张blogtable表，如果按照传统的RDBMS的话，blogtable表中的列是固定的，比如schema 定义了Author,Title,URL,text等属性，上线后表字段是不能动态增加的。但是如果采用列存储系统，比如Hbase，那么我们可以定义blogtable表，然后定义info 列族，User的数据可以分为：info:title ,info:author ,info:url 等，如果后来你又想增加另外的属性，这样很方便只需要 info:xxx 就可以了。对于Row key你可以理解row key为传统RDBMS中的某一个行的主键，Hbase是不支持条件查询以及Order by等查询，因此Row key的设计就要根据你系统的查询需求来设计了额。 Hbase中的记录是按照rowkey来排序的，这样就使得查询变得非常快。 hive简介 Hive是基于hadoop构建的数据仓库基础架构，通过提供一系列的工具，使得用户能够方便的做数据ETL，数据结构化，并针对存放在hadoop上的海量数据进行查询和分析 hive的设计目标是：可伸缩、可扩展、容错及输入格式松耦合。数据单元按照数据的粒度大小，hive数据可以被组织成： 1）databases：避免不同表产生命名冲突的一种命名空间 2）tables：具有相同scema的同质数据的集合 partitions：一个表可以有一个或多个决定数据如何存储的partition key buckets（或clusters）：在同一个partition中的数据可以根据某个列的hash值分为多个bucket。partition和bucket并非必要，但是它们能大大加快数据的查询速度。数据类型（1）简单类型： TINYINT - 1 byte integer SMALLINT - 2 byte integer INT - 4 byte integer BIGINT - 8 byte BOOLEAN - TRUE/ FALSE FLOAT - 单精度 DOUBLE - 双精度 STRING - 字符串集合（2）复杂类型： Structs： structs内部的数据可以通过DOT（.）来存取，例如，表中一列c的类型为STRUCT{a INT; b INT}，我们可以通过c.a来访问域a。 Maps（Key-Value对）：访问指定域可以通过['element name']进行，例如，一个Map M包含了一个group->gid的k-v对，gid的值可以通过M['group']来获取。 Arrays：array中的数据为相同类型，例如，假如array A中元素['a','b','c']，则A[1]的值为'b'。内建运算符和函数包括关系运算符(A=B, A!=B, A<B等等）算术运算符（A+B, A*B, A&B, A|B等等）逻辑运算符（A&&B, A|B等等）复杂类型上的运算符（A[n], M[key], S.x）各种内建函数。语言能力 hive查询语言提供基本的类sql操作，这些操作基于table和partition，包括： 1. 使用wh