大数据 Spark编程基础(Scala版)-第6章-Spark SQL.pptVIP

大数据 Spark编程基础(Scala版)-第6章-Spark SQL.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
随着Spark的发展,对于野心勃勃的Spark团队来说,Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便,真可谓“退一步,海阔天空”。 l数据兼容方面??不但兼容Hive,还可以从RDD、parquet文件、JSON文件中获取数据,未来版本甚至支持获取RDBMS数据以及cassandra等NOSQL数据; l性能优化方面??除了采取In-Memory Columnar Storage、byte-code generation等优化技术外、将会引进Cost Model对查询进行动态评估、获取最佳物理计划等等; l组件扩展方面??无论是SQL的语法解析器、分析器还是优化器都可以重新定义,进行扩展。 * 只不过RDD就像一个空旷的屋子,你要找东西要把这个屋子翻遍才能找到。那我们的这个DataFrame相当于在你的屋子里面打上了货架。那你只要告诉他你是在第几个货架的第几个位置,那不就是二维表吗。那就是我们DataFrame就是在RDD基础上加入了列。实际上我们处理数据就像处理二维表一样。 * 一、隐式转换介绍 (1) 包括隐式参数、隐式对象、隐式类 (2) scala独有的。 (3) 当调用对象中不存在的方法,系统会扫描上下文和伴对象看是否有implicit方法,如果有隐式方法则调用隐式方法,隐式方法传入原生对象返回包含扩展方法的对象。 (4)原类型和伴生对象都找不到的隐式值,会找手动导入的implicit Import Spark.implicit._ * Spark官网提供了两种方法来实现从RDD转换得到DataFrame 第一种方法是,利用反射来推断包含特定类型对象的RDD的schema,适用对已知数据结构的RDD转换 第二种方法是,使用编程接口,构造一个schema并将其应用在已知的RDD上 * 6.7 使用Spark SQL读写数据库 6.7.1 通过JDBC连接数据库 6.7.2 连接Hive读写数据 Spark SQL可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源 6.7.1 通过JDBC连接数据库 1. 准备工作 2. 读取MySQL数据库中的数据 3. 向MySQL数据库写入数据 6.7.1 通过JDBC连接数据库 请参考厦门大学数据库实验室博客教程《 Ubuntu安装MySQL 》,在Linux系统中安装好MySQL数据库 教程地址: /blog/install-mysql/ 平台每年访问量超过100万次 1. 准备工作 6.7.1 通过JDBC连接数据库 在Linux中启动MySQL数据库 $ service mysql start $ mysql -u root -p #屏幕会提示你输入密码 mysql> create database spark; mysql> use spark; mysql> create table student (id int(4), name char(20), gender char(4), age int(4)); mysql> insert into student values(1,'Xueqian','F',23); mysql> insert into student values(2,'Weiliang','M',24); mysql> select * from student; 输入下面SQL语句完成数据库和表的创建: 6.7.1 通过JDBC连接数据库 下载MySQL的JDBC驱动程序,比如mysql-connector-java-5.1.40.tar.gz 把该驱动程序拷贝到spark的安装目录” /usr/local/spark/jars”下 启动一个spark-shell,启动Spark Shell时,必须指定mysql连接驱动jar包 $ cd /usr/local/spark $ ./bin/spark-shell \ --jars /usr/local/spark/jars/mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar \ --

文档评论(0)

笑笑 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档