大数据 Spark编程基础（Scala版）-第4章-Spark环境搭建和使用方法.pptVIP

下载本文档

22
0
约1.23万字
约 49页
2020-04-07 发布于江苏
举报
版权申诉

大数据 Spark编程基础（Scala版）-第4章-Spark环境搭建和使用方法.ppt

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

4.4.3 安装Spark 在Master节点上，访问Spark官网下载Spark安装包 sudo tar -zxf ~/下载/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/ cd /usr/local sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark sudo chown -R hadoop ./spark 4.4.4 配置环境变量在Master节点主机的终端中执行如下命令： $ vim ~/.bashrc 在.bashrc添加如下配置： export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin $ source ~/.bashrc 运行source命令使得配置立即生效： 4.4.5 Spark配置（1）配置slaves文件将 slaves.template 拷贝到 slaves $ cd /usr/local/spark/ $ cp ./conf/slaves.template ./conf/slaves slaves文件设置Worker节点。编辑slaves内容,把默认内容localhost替换成如下内容： Slave01slave02 4.4.5 Spark配置（2）配置spark-env.sh文件将 spark-env.sh.template 拷贝到 spark-env.sh $ cp ./conf/spark-env.sh.template ./conf/spark-env.sh 编辑spark-env.sh,添加如下内容： export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop export SPARK_MASTER_IP=04 4.4.5 Spark配置配置好后，将Master主机上的/usr/local/spark文件夹复制到各个节点上在Master主机上执行如下命令： cd /usr/local/ tar -zcf ~/spark.master.tar.gz ./spark cd ~ scp ./spark.master.tar.gz slave01:/home/hadoop scp ./spark.master.tar.gz slave02:/home/hadoop 在slave01,slave02节点上分别执行下面同样的操作： sudo rm -rf /usr/local/spark/ sudo tar -zxf ~/spark.master.tar.gz -C /usr/local sudo chown -R hadoop /usr/local/spark 4.4.6 启动Spark集群（1）首先启动Hadoop集群。在Master节点主机上运行如下命令： $ cd /usr/local/hadoop/ $ sbin/start-all.sh （2）启动Master节点在Master节点主机上运行如下命令： $ cd /usr/local/spark/ $ sbin/start-master.sh （3）启动所有Slave节点在Master节点主机上运行如下命令： $ sbin/start-slaves.sh 4.4.6 启动Spark集群（4）在浏览器上查看Spark独立集群管理器的集群信息在Master主机上打开浏览器，访问http://master:8080,如下图： 4.4.7 关闭Spark集群（1）关闭Master节点 $ sbin/stop-master.sh （2）关闭Worker节点 $ sbin/stop-slaves.sh （3）关闭Hadoop集群 $ cd /usr/local/hadoop/ $ sbin/stop-all.sh 在Master节点上执行下面命令 4.5 在集群上运行Spark应用程序 4.5.1 启动Spark集群 4.5.2 采用独立集群管理器 4.5.3 采用Hadoop YARN管理器 4.5.1 启动Spark集群请登录Linux系统，打开一个终端启动Hadoop集群 $ cd /usr/local/hadoop/ $ sbin/start-all.sh 启动Spark的Master节点和所有slaves节点 $ cd /usr/local/spark/ $ sbin/start-master.sh $ sb