Conectando um cluster do Databricks ao Power BI através do ODBC/JDBC.

Cezar Peixeiro
czrpxr

--

O Databricks é uma plataforma de análise rápida como uma abstração do Apache Spark. Através dele é possível realizar uma conexão para visualização de dados em dashboards criados em softwares de análise de dados e BI.

Os sistemas ODBC (Open Database Connectivity)/ JDBC (Java Database Connectivity) são padrões de acesso a sistemas de bancos de dados.

Abaixo você encontrará um passo a passo para conexão do Power BI ao Databricks, através de de uma conexão ODBC/JDBC. Para o exemplo abaixo, está sendo utilizado uma hospedagem do Databricks hospedada no Microsoft Azure:

A) DATABRICKS

  • Ao acessar sua conta no Databricks, clique no ícone que indica acesso as configurações do seu usuário:
  • Clique em User Settings:
  • Na área User Settings haverá um botão para geração de um token de acesso (1) clique no botão para gerá-lo. Abrirá uma janela pop-up onde você poderá escrever um comentário sobre este token e definir um período de validade para ele (o valor padrão é de 90 dias). Logo após o token ser gerado, você deverá copiá-lo do próprio pop-up que abrirá em seguida. A copia deve ser do próprio pop-up, pois será a única vez que você terá acesso ao token. Ao confirmar a criação ele será adicionado a uma lista na tela para que você possa revogar o acesso posteriormente, mas nesta lista você não terá acesso a ele, e sim a um ID apenas.
  • Após salvar o token gerado anteriormente, clique na área de gerenciamento dos clusters (1). Selecione um cluster da lista que será exibida e ao acessar os dados dele vá até Advanced Options (2). Ao exibir as opções, clique em JDBC/ODBC (3):
  • Ao acessar a área JDBC/ODBC várias informações serão exibidas. Copie todo o valor que aparece no campo JDBC URL em um editor de texto:
  • No editor de texto deverá ser removido todos os trechos que estão marcados em vermelho e o trecho onde está escrito jdbc:spark substituído por https:

O resultado final será uma url semelhante a esta:

Guarde esta informação e siga o próximo passo:

B) POWER BI

  • Logo após abrir o Power BI, clique em Obter Dados -> Mais…
  • No campo de busca, procure por spark (1) e clique no resultado indicado (2).
  • Copie a URL gerada através dos dados do Databricks para o campo Servidor (1) e coloque o protocolo como HTTP. Em seguida, no seletor de Modo de Conectividade de Dados (2) escolha uma das duas opções: Importar (importa os dados que serão selecionados posteriormente para a sua máquina) ou DirectQuery (fará consultas diretamente no Banco de Dados, sem carregar dados para o seu computador). Assim que finalizado, clique em OK.
  • Surgirão dois campos para que sejam preenchidos da seguinte maneira: em Nome do usuário deve ser colocada a palavra token (literalmente) e no campo Senha, o token gerado através do Databricks. Clique em Conectar.
  • Assim que a conexão for realizada, as tabelas do seu banco de dados serão mostradas do lado esquerdo e do lado direito será exibida uma prévia para verificação se são realmente aqueles dados. Após selecionar as tabelas necessárias, basta clicar em Carregar.

POSSÍVEL DIFICULDADE:

Pode ser que por algum motivo você coloque um nome errado no campo onde deveria haver token ou um valor errado para o próprio token. O Power BI mostrará um erro de conexão, porém, não irá lhe mostrar estes campos novamente. Para que você consiga fazer o procedimento do “zero” novamente, você deve limpar a tentativa anterior através dos seguintes passos:

  • Vá em Arquivo -> Opções e configurações.
  • Logo após, clique em Configurações da Fonte de Dados.
  • Serão exibidas as permissões globais de dados. Clique na tentativa de conexão que você acabou de realizar e clique em Limpar Permissões.

Logo após você poderá realizar a tentativa com outro valor para o token, reiniciando o processo anterior!

--

--

Cezar Peixeiro
czrpxr
Editor for

Especulador de tudo sobre programação, maker, dados, ciência e tecnologia.