Conectando um cluster do Databricks ao Power BI através do ODBC/JDBC.
O Databricks é uma plataforma de análise rápida como uma abstração do Apache Spark. Através dele é possível realizar uma conexão para visualização de dados em dashboards criados em softwares de análise de dados e BI.
Os sistemas ODBC (Open Database Connectivity)/ JDBC (Java Database Connectivity) são padrões de acesso a sistemas de bancos de dados.
Abaixo você encontrará um passo a passo para conexão do Power BI ao Databricks, através de de uma conexão ODBC/JDBC. Para o exemplo abaixo, está sendo utilizado uma hospedagem do Databricks hospedada no Microsoft Azure:
A) DATABRICKS
- Ao acessar sua conta no Databricks, clique no ícone que indica acesso as configurações do seu usuário:
- Clique em User Settings:
- Na área User Settings haverá um botão para geração de um token de acesso (1) clique no botão para gerá-lo. Abrirá uma janela pop-up onde você poderá escrever um comentário sobre este token e definir um período de validade para ele (o valor padrão é de 90 dias). Logo após o token ser gerado, você deverá copiá-lo do próprio pop-up que abrirá em seguida. A copia deve ser do próprio pop-up, pois será a única vez que você terá acesso ao token. Ao confirmar a criação ele será adicionado a uma lista na tela para que você possa revogar o acesso posteriormente, mas nesta lista você não terá acesso a ele, e sim a um ID apenas.
- Após salvar o token gerado anteriormente, clique na área de gerenciamento dos clusters (1). Selecione um cluster da lista que será exibida e ao acessar os dados dele vá até Advanced Options (2). Ao exibir as opções, clique em JDBC/ODBC (3):
- Ao acessar a área JDBC/ODBC várias informações serão exibidas. Copie todo o valor que aparece no campo JDBC URL em um editor de texto:
- No editor de texto deverá ser removido todos os trechos que estão marcados em vermelho e o trecho onde está escrito jdbc:spark substituído por https:
O resultado final será uma url semelhante a esta:
Guarde esta informação e siga o próximo passo:
B) POWER BI
- Logo após abrir o Power BI, clique em Obter Dados -> Mais…
- No campo de busca, procure por spark (1) e clique no resultado indicado (2).
- Copie a URL gerada através dos dados do Databricks para o campo Servidor (1) e coloque o protocolo como HTTP. Em seguida, no seletor de Modo de Conectividade de Dados (2) escolha uma das duas opções: Importar (importa os dados que serão selecionados posteriormente para a sua máquina) ou DirectQuery (fará consultas diretamente no Banco de Dados, sem carregar dados para o seu computador). Assim que finalizado, clique em OK.
- Surgirão dois campos para que sejam preenchidos da seguinte maneira: em Nome do usuário deve ser colocada a palavra token (literalmente) e no campo Senha, o token gerado através do Databricks. Clique em Conectar.
- Assim que a conexão for realizada, as tabelas do seu banco de dados serão mostradas do lado esquerdo e do lado direito será exibida uma prévia para verificação se são realmente aqueles dados. Após selecionar as tabelas necessárias, basta clicar em Carregar.
POSSÍVEL DIFICULDADE:
Pode ser que por algum motivo você coloque um nome errado no campo onde deveria haver token ou um valor errado para o próprio token. O Power BI mostrará um erro de conexão, porém, não irá lhe mostrar estes campos novamente. Para que você consiga fazer o procedimento do “zero” novamente, você deve limpar a tentativa anterior através dos seguintes passos:
- Vá em Arquivo -> Opções e configurações.
- Logo após, clique em Configurações da Fonte de Dados.
- Serão exibidas as permissões globais de dados. Clique na tentativa de conexão que você acabou de realizar e clique em Limpar Permissões.
Logo após você poderá realizar a tentativa com outro valor para o token, reiniciando o processo anterior!