本地SPARK开发环境搭建

1、安装JAVA8

将附件的JDK下载解压到目录下

然后配置环境变量JAVA_HOME、CLASSPATH(%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;)、以及添加PATH(%JAVA_HOME%\bin)

配置完成后,打开cmd输入java-version查看环境是否生效

2、配置hadoop环境

将附件的HADOOP下载解压到目录下

然后配置环境变量HADOOP_HOME以及添加PATH(%HADOOP_HOME%\bin)

3、配置SPARK环境

将附件的HADOOP下载解压到目录下

然后配置环境变量SPARK_HOME、PYTHONPATH(%SPARK_HOME%\python;%SPARK_HOME%\python\lib\py4j-0.10.4-src.zip;%PYTHONPATH%)以及添加PATH(%SPARK_HOME%\sbin、%SPARK_HOME%\bin)

测试spark

打开CMD输入spark-shell

4、安装pyspark

  1. pip install pyspark

测试

打开CMD输入pyspark

5、测试代码

 


# -*- coding: UTF-8 -*-
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("sparkUserLog") \
.master("local[*]") \
.getOrCreate()
df = spark.createDataFrame([
(1, 144.5, 5.9, 33, 'M'),
(2, 167.2, 5.4, 45, 'M'),
(3, 124.1, 5.2, 23, 'F'),
(4, 144.5, 5.9, 33, 'M'),
(5, 133.2, 5.7, 54, 'F'),
(3, 124.1, 5.2, 23, 'F'),
(5, 129.2, 5.3, 42, 'M'),
], ['id', 'weight', 'height', 'age', 'gender'])
df.show()


发表评论