大数据 Spark编程基础（Scala版）-第6章-Spark SQL.pptVIP

下载本文档

76
0
约1.75万字
约 62页
2020-04-07 发布于江苏
举报
版权申诉

大数据 Spark编程基础（Scala版）-第6章-Spark SQL.ppt

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

随着Spark的发展，对于野心勃勃的Spark团队来说，Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。SparkSQL抛弃原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等，重新开发了SparkSQL代码；由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便，真可谓“退一步，海阔天空”。 l数据兼容方面??不但兼容Hive，还可以从RDD、parquet文件、JSON文件中获取数据，未来版本甚至支持获取RDBMS数据以及cassandra等NOSQL数据； l性能优化方面??除了采取In-Memory Columnar Storage、byte-code generation等优化技术外、将会引进Cost Model对查询进行动态评估、获取最佳物理计划等等； l组件扩展方面??无论是SQL的语法解析器、分析器还是优化器都可以重新定义，进行扩展。 * 只不过RDD就像一个空旷的屋子，你要找东西要把这个屋子翻遍才能找到。那我们的这个DataFrame相当于在你的屋子里面打上了货架。那你只要告诉他你是在第几个货架的第几个位置，那不就是二维表吗。那就是我们DataFrame就是在RDD基础上加入了列。实际上我们处理数据就像处理二维表一样。 * 一、隐式转换介绍（1）包括隐式参数、隐式对象、隐式类（2） scala独有的。（3）当调用对象中不存在的方法，系统会扫描上下文和伴对象看是否有implicit方法，如果有隐式方法则调用隐式方法，隐式方法传入原生对象返回包含扩展方法的对象。 (4)原类型和伴生对象都找不到的隐式值，会找手动导入的implicit Import Spark.implicit._ * Spark官网提供了两种方法来实现从RDD转换得到DataFrame 第一种方法是，利用反射来推断包含特定类型对象的RDD的schema，适用对已知数据结构的RDD转换第二种方法是，使用编程接口，构造一个schema并将其应用在已知的RDD上 * 6.7 使用Spark SQL读写数据库 6.7.1 通过JDBC连接数据库 6.7.2 连接Hive读写数据 Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源 6.7.1 通过JDBC连接数据库 1. 准备工作 2. 读取MySQL数据库中的数据 3. 向MySQL数据库写入数据 6.7.1 通过JDBC连接数据库请参考厦门大学数据库实验室博客教程《 Ubuntu安装MySQL 》，在Linux系统中安装好MySQL数据库教程地址： /blog/install-mysql/ 平台每年访问量超过100万次 1. 准备工作 6.7.1 通过JDBC连接数据库在Linux中启动MySQL数据库 $ service mysql start $ mysql -u root -p #屏幕会提示你输入密码 mysql> create database spark; mysql> use spark; mysql> create table student (id int(4), name char(20), gender char(4), age int(4)); mysql> insert into student values(1,'Xueqian','F',23); mysql> insert into student values(2,'Weiliang','M',24); mysql> select * from student; 输入下面SQL语句完成数据库和表的创建： 6.7.1 通过JDBC连接数据库下载MySQL的JDBC驱动程序，比如mysql-connector-java-5.1.40.tar.gz 把该驱动程序拷贝到spark的安装目录” /usr/local/spark/jars”下启动一个spark-shell，启动Spark Shell时，必须指定mysql连接驱动jar包 $ cd /usr/local/spark $ ./bin/spark-shell \ --jars /usr/local/spark/jars/mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar \ --