Instalando o Pyspark no Ubuntu Linux

Jéssica Costa
A Garota do TI
Published in
3 min readApr 29, 2021

Depois de muito tempo sem escrever, resolvi fazer um tutorial para ensinar como instalar o Pyspark no Ubuntu Linux. Para quem não conhece, o Pyspark é uma interface do Apache Spark em Python. Então já não é pré-requisito saber Scala, pois é possível trabalhar com outras linguagens. PySpark possui vários pacotes do Spark como o Spark SQL, DataFrame, Streaming, MLlib (Machine Learning) e o Spark Core.

Fonte: https://spark.apache.org/docs/latest/api/python/index.html

Para começar, é importante que você tenha o Java instalado na máquina, eu utilizo o OpenJDK 11(Java Development Kit) porque trabalho com desenvolvimento Java, mas para execução, a JRE (Java Runtime Environment) já é suficiente para rodar o Pyspark. Como existem várias versões, fica a seu cargo escolher, porém recomendo da 8 em diante. Além disso você vai precisar ter instalado o Python na máquina, prefira alguma versão 3 em diante.

Após a instalação do Java, é importante instalar o Py4J que permite que programas Python executados no interpretador Python acessem dinamicamente objetos Java na JVM ou máquina virtual Java (Ver: https://pypi.org/project/py4j/). Para instalar o Py4J, você utiliza o comando:

$ pip install Py4J

Existem três formas de instalar o Pyspark: pelo conda, pelo Pypi e a instalação manual. Eu prefiro a instalação manual, mas vou deixar o link no final do artigo das outras formas. Para a instalação manual você vai baixar o Spark diretamente do site do Apache. Essa instalação vem completa, com Pyspark e inclusive com uma versão para o R (fica a dica), além disso vem exemplos de utilização e alguns arquivos de dados.

Fonte: https://spark.apache.org/downloads.html

Escolha a release, o tipo de pacote e faça o download, que virá como um arquivo compactado tgz. Realize a descompactação em algum diretório através do comando:

$ tar -xvf spark-3.1.1-bin-hadoop2.7.tgz

Finalmente, abra seu arquivo .bashrc para configurar a variáveis de ambiente no $PATH. Você pode usar o Gedit, o Vim, fica a sua escolha. Você configurará as variáveis para indicar o local do SPARK e do Python e duas configurações adicionais para rodar o Pyspark no Jupyter Notebook. Importante destacar que você precisa ter o ambiente Jupyter instalado.

export SPARK_HOME='{seu diretorio}/spark-3.1.1-bin-hadoop2.7'
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

Depois de fazer baixar os pacotes e configurar as variáveis, reinicie o terminal e utilize o comando abaixo que vai abrir automaticamente o Jupyter Notebook.

$ pyspark

Na documentação existem diversos exemplos para que você possa testar e aprender, com códigos para o Dataframe, RDD e Machine Learning. Deixo registrado o link para as outras formas de instalação, através do Conda ou Pypi. Espero que este tutorial ajude a todos que estão iniciando nesse mundo Spark.

--

--

Jéssica Costa
A Garota do TI

Mestre em Ciência da Computação, GDE em Machine Learning e Cientista de Dados