Como instalar o PySpark no Jupyter

Published in

Data Bootcamp

1 min readOct 8, 2017

O Spark é uma poderosa ferramenta de processamento paralelo que pode ser usada para paralelizar de forma fácil suas análises ou jobs em BigData.

Dependência

Como dependência precisa instalar o Java. No próprio site do Java você tem detalhado como instalar em cada sistema operacional.

Instalação

Sua última versão pode ser instalada de forma fácil digitando no notebook:

ou buscando no anaconda pelo pacote pyspark e instalando.

Depois disso, já pode criar sua sessão do Spark de forma simples no seu notebook:

from pyspark.sql import SparkSession spark = SparkSession.builder.master("local") \ .appName("DataBootcamp") \ .getOrCreate()

Extra

Caso precise do spark completo pode fazer download da sua última versão no site oficial, descompactar e colocar a variável SPARK_HOME como o path de onde você extraiu. Depois utilize o findspark para carregar ele dentro do Jupyter Notebook.

Originally published at http://databootcamp.com.br/blog/como-instalar-o-pyspark-no-jupyter.html on October 8, 2017.

Como instalar o PySpark no Jupyter

Dependência

Instalação

Extra

Written by Data Bootcamp