Como instalar o PySpark no Jupyter

Data Bootcamp
Data Bootcamp
Published in
1 min readOct 8, 2017

O Spark é uma poderosa ferramenta de processamento paralelo que pode ser usada para paralelizar de forma fácil suas análises ou jobs em BigData.

Dependência

Como dependência precisa instalar o Java. No próprio site do Java você tem detalhado como instalar em cada sistema operacional.

Instalação

Sua última versão pode ser instalada de forma fácil digitando no notebook:

ou buscando no anaconda pelo pacote pyspark e instalando.

Depois disso, já pode criar sua sessão do Spark de forma simples no seu notebook:

from pyspark.sql import SparkSession spark = SparkSession.builder.master("local") \ .appName("DataBootcamp") \ .getOrCreate()

Extra

Caso precise do spark completo pode fazer download da sua última versão no site oficial, descompactar e colocar a variável SPARK_HOME como o path de onde você extraiu. Depois utilize o findspark para carregar ele dentro do Jupyter Notebook.

--

--

Data Bootcamp
Data Bootcamp

Bem-vindo ao maior bootcamp de Data Science do Brasil! Acesse www.databootcamp.com.br e conheça nossos cursos.