本地SPARK开发环境搭建

tangzehang Python, 大数据相关十二月 11, 2018

1、安装JAVA8

将附件的JDK下载解压到目录下

然后配置环境变量JAVA_HOME、CLASSPATH（%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;）、以及添加PATH（%JAVA_HOME%\bin）

配置完成后，打开cmd输入java-version查看环境是否生效

2、配置hadoop环境

将附件的HADOOP下载解压到目录下

然后配置环境变量HADOOP_HOME以及添加PATH（%HADOOP_HOME%\bin）

3、配置SPARK环境

将附件的HADOOP下载解压到目录下

然后配置环境变量SPARK_HOME、PYTHONPATH（%SPARK_HOME%\python;%SPARK_HOME%\python\lib\py4j-0.10.4-src.zip;%PYTHONPATH%）以及添加PATH（%SPARK_HOME%\sbin、%SPARK_HOME%\bin）

测试spark

打开CMD输入spark-shell

4、安装pyspark

pip install pyspark

测试

打开CMD输入pyspark

5、测试代码

# -*- coding: UTF-8 -*- from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("sparkUserLog") \ .master("local[*]") \ .getOrCreate() df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'), (4, 144.5, 5.9, 33, 'M'), (5, 133.2, 5.7, 54, 'F'), (3, 124.1, 5.2, 23, 'F'), (5, 129.2, 5.3, 42, 'M'), ], ['id', 'weight', 'height', 'age', 'gender']) df.show()

本地SPARK开发环境搭建

发表评论 取消回复

发表评论取消回复