Spark安装与配置
Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介资料存放到磁盘中,Spark使用了存储器内运算技术,能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。Spark允许用户将资料加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。
使用Spark需要搭配集群管理员和分布式存储系统。Spark支持独立模式(本地Spark集群)、Hadoop YARN或Apache Mesos的集群管理。在分布式存储方面,Spark可以和 Alluxio, HDFS、 Cassandra、OpenStack Swift和Amazon S3等接口搭载。 Spark也支持伪分布式(pseudo-distributed)本地模式,不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下,Spark仅在一台机器上使用每个CPU核心运行程序。
在2014年有超过465位贡献者投入Spark开发,让其成为Apache软件基金会以及大数据众多开源项目中最为活跃的项目。
二、安装Spark
1、从官网下载spark-3.0.1
https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz
将安装包上传至Linux系统,这里上传至/root。
2、解压Spark
$ sudo tar -zxf spark-3.0.1-bin-hadoop2.7.tgz
3、配置环境变量
$ vim /etc/profile
写入如下内容
export SPARK_HOME=/root/spark-3.0.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin
应用环境变量
$ source /etc/profile
4、复制配置文件spark-env并修改
$ cp /root/spark-3.0.1-bin-hadoop2.7/conf/spark-env.sh.template /root/spark-3.0.1-bin-hadoop2.7/conf/spark-env.sh
修改配置文件
$ vim /root/spark-3.0.1-bin-hadoop2.7/conf/spark-env.sh
写入如下内容
export JAVA_HOME=/usr/java/jdk1.8.0_261-amd64
export SPARK_MASTER_IP=localhost
export SPARK_MASTER_PORT=7077
注:JAVA_HOME作为安装服务器java路径。
5、复制配置文件slaves并修改
$ cp /root/spark-3.0.1-bin-hadoop2.7/conf/slaves.template /root/spark-3.0.1-bin-hadoop2.7/conf/slaves
修改配置文件
$ vim /root/spark-3.0.1-bin-hadoop2.7/conf/slaves
写入如下内容,在文件中添加子节点所在位置(Worker节点)
localhost
6、启动Spark
进入Spark的sbin目录下
$ cd /root/spark-3.0.1-bin-hadoop2.7/sbin
启动spark master服务
$ start-master.sh
启动spark slave服务
$ start-slave.sh spark://localhost:7077
查看运行进程情况
$ jps
查看到有Master和Worker进程即为启动成功。
举报
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.