Elasticsearch, mas com a conveniência do pandas

Elasticsearch para ciência de dados acabou de ficar muito mais fácil

Eland é um novo módulo python que facilita integração de Elasticsearch com o ecossistemas de data science.

Mateus Picanço
Data Hackers

--

Elasticsearch é um poderoso motor de busca desenvolvido em cima do Apache Lucene (uma das bibliotecas de busca textual mais importantes do mercado). Elasticsearch é conhecido pela experiência de REST API altamente versátil e expansiva, incluindo abstrações para full-text search, sorting e aggregações complexas, tornando muito mais fácil integrar tais features em backends já existentes.

Desde a sua introdução em 2010, o Elasticseach ganhou bastante notoriedade na comunidade de software de código-aberto e em 2016 se tornou o motor de busca empresarial mais popular de acordo com o agregador de conhecimento em bases de dados DB-engines, desbancando o Apache Solr (que também é construído com base em Lucene).

Google Trends interest for Elasticsearch since its release in 2010 (Worldwide)
Dados de busca sobre Elasticsearch no Google Trends desde sua introdução em 2010.

Uma das coisas que faz o Elasticsearch ser tão popular é o ecossistema que acabou criando. Vários desenvolvedores ao redor do mundo trabalharam em integrações e extensões do projeto base e muitos destes projetos de código-aberto foram eventualmente absorvidos pela própria Elastic (a empresa por trás do projeto do Elasticsearch) como parte de sua stack principal.

Projetos como o Logstash (usado para processamento de dados, ETL e especialmente em tratamento de arquivos baseados em texto) e o Kibana (plataforma de visualização integrada com o Elasticsearch) foram adotados como componentes primárias da suíte de software da Elastic, culminando na instituição da stack ELK (Elasticsearch, Logstash, Kibana).

Devido a sua versatilidade e aplicabilidade em diversos cenários e casos de uso, a stack da Elastic ganhou adoção também em vários outros campos de conhecimento da área de tecnologia e software, como em DevOps, Site-reliability Engineering e, mais recentemente, Data Analytics.

Mas e para ciência de dados, como fica?

É possível que, se você é um(a) cientista de dados lendo este artigo e precisa utilizar o Elasticsearch como parte de sua stack de software, você pode ter tido algum problema ou dificuldade tentando utilizar as ótimas features que a ferramenta provê para análise de dados e até mesmo para jobs de Machine Learning simples.

Cientistas de dados no geral não estão acostumados com bancos não-relacionais e estruturas orientadas a documentos, ou mesmo a utilizar REST APIs complexas para suportar análises. Lidar com volumes de dados expressivos usando o cliente baixo-nível python para Elasticsearch, por exemplo, pode ser pouco intuitivo e requer curva de aprendizado não-trivial para pessoas que não vêm do campo da Engenharia de Software.

Apesar da Elastic ter alocado esforços significativos para adaptar a stack de software ELK aos contextos de data analytics e ciência de dados, ainda faltava uma interface simples e eficiente com o ecossistema de data science já existente (bibliotecas populares pandas, numpy, scikit-learn e PyTorch).

Em 2017, a Elastic até deu um grande passo em direção ao campo da ciência de dados e, como uma respoosta ao interesse crescente em Machine Learning tecnologias preditivas, lançou o primeiro X-pack (pacote de expansão) para aprendizado de máquina, que introduziu rotinas de Detecção de Anomalias e outras rotinas de aprendizado não-supervisionado. Não muito tempo depois, também foram introduzidas rotinas de Regressãoo e Classificação (1) na stack.

Semana passada, a Elastic andou mais uma vez em direção a ganhar maior adoção no mercado de data science ao lançar o Eland, uma interface em python com sintaxe e features similares ao pacote pandas, facilitando processos de análise, ETL e modelagem com o Elasticsearch.

Eland: Elastic and Data

O pacote Eland permite a cientistas de dados usarem de forma eficiente os recursos de analytics e Machine Learning já existentes na stack da Elastic sem precisarem de um conhecimento extensivo sobre o Elasticsearch e suas particularidades.

Features e conceitos do Elasticsearch foram mapeados para um contexto mais comum no dia-a-dia de um(a) cientista de dados. Por exemplo, um índice Elasticsearch, com seus documentos, mapas e campos, se torna uma dataframe, com linhas e colunas, muito parecido com o que se está acostumado a ver em pandas.

# importando o Eland e clientes python para comparação
import eland as ed
from eland.conftest import *
from elasticsearch import Elasticsearch
from elasticsearch_dsl import Search, Q
# importando o pandas e numpy para processamento de dados
import pandas as pd
import numpy as np
# para printar os documentos
import json

Casos de uso comuns em cenários de ciência de dados como ler um índice Elasticsearch inteiro e transferí-lo para um dataframe pandas para Análise Exploratória de Dados ou para realiza engenharia de features e treinar um modelo de Machine Learning normalmente necessitariam de alguns processos ineficientes.

# nome do índice que queremos estudar.
index_name = 'kibana_sample_data_ecommerce'
# instanciando o cliente elasticsearch
es = Elasticsearch()
# defining o objeto de busca que utilizaremos para fazer a query
search = Search(using=es, index=index_name).query("match_all")
# extraindo os documentos do índice
documents = [hit.to_dict() for hit in search.scan()]
# convertendo a lista de dicionários numa dataframe
df_ecommerce = pd.DataFrame.from_records(documents)
# visualizando os resultados
df_ecommerce.head()['geoip']
0 {'country_iso_code': 'EG', 'location': {'lon':...
1 {'country_iso_code': 'AE', 'location': {'lon':...
2 {'country_iso_code': 'US', 'location': {'lon':...
3 {'country_iso_code': 'GB', 'location': {'lon':...
4 {'country_iso_code': 'EG', 'location': {'lon':...
Name: geoip, dtype: object
# resumindo as colunas da dataframe
df_ecommerce.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4675 entries, 0 to 4674
Data columns (total 23 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 category 4675 non-null object
1 currency 4675 non-null object
2 customer_first_name 4675 non-null object
3 customer_full_name 4675 non-null object
4 customer_gender 4675 non-null object
5 customer_id 4675 non-null int64
6 customer_last_name 4675 non-null object
7 customer_phone 4675 non-null object
8 day_of_week 4675 non-null object
9 day_of_week_i 4675 non-null int64
10 email 4675 non-null object
11 manufacturer 4675 non-null object
12 order_date 4675 non-null object
13 order_id 4675 non-null int64
14 products 4675 non-null object
15 sku 4675 non-null object
16 taxful_total_price 4675 non-null float64
17 taxless_total_price 4675 non-null float64
18 total_quantity 4675 non-null int64
19 total_unique_products 4675 non-null int64
20 type 4675 non-null object
21 user 4675 non-null object
22 geoip 4675 non-null object
dtypes: float64(2), int64(5), object(16)
memory usage: 840.2+ KB
# calculando estatísticas em cima dos dados:
df_ecommerce.describe()
png

O procedimento acima é bem comum em vários Jupyter Notebooks por aí e exigiria ter tanto a lista de dicionários com os documentos quanto a pandas dataframe referente a estes dados em memória em algum momento (2). Para casos de uso de Big Data, por exemplo, tal processo não seria aplicável, já que requeriria armanezar grandes quantidades de dados em memória para processamento e até mesmo análises simples poderiam demorar.

O Eland nos permite realizar operação muito similares às descritas acima, sem a necessidade de adaptar o mesmo racional ao contexto do Elasticsearch e ao mesmo tempo usando a ferramenta para o que ela faz melhor: busca e agregação.

# lendo o índice de exemplo numa dataframe Eland
ed_ecommerce = ed.read_es('localhost', index_name)
# visualizando os resultados:
ed_ecommerce.head()
png

Pode-se perceber, também, que o campo geoip (que no dataset original armazena um objeto json) foi parseado sem maiores dificuldades na dataframe Eland. Podemos observar esse comportamento utilizando o método .info() nela, da mesma que faríamos com uma dataframe pandas.

# resumindo as colunas e registros da dataframe eland
ed_ecommerce.info()
<class 'eland.dataframe.DataFrame'>
Index: 4675 entries, jyzpQ3MBG9Z35ZT1wBWt to 0SzpQ3MBG9Z35ZT1yyej
Data columns (total 45 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 category 4675 non-null object
1 currency 4675 non-null object
2 customer_birth_date 0 non-null datetime64[ns]
3 customer_first_name 4675 non-null object
4 customer_full_name 4675 non-null object
5 customer_gender 4675 non-null object
6 customer_id 4675 non-null object
7 customer_last_name 4675 non-null object
8 customer_phone 4675 non-null object
9 day_of_week 4675 non-null object
10 day_of_week_i 4675 non-null int64
11 email 4675 non-null object
12 geoip.city_name 4094 non-null object
13 geoip.continent_name 4675 non-null object
14 geoip.country_iso_code 4675 non-null object
15 geoip.location 4675 non-null object
16 geoip.region_name 3924 non-null object
17 manufacturer 4675 non-null object
18 order_date 4675 non-null datetime64[ns]
19 order_id 4675 non-null object
20 products._id 4675 non-null object
21 products.base_price 4675 non-null float64
22 products.base_unit_price 4675 non-null float64
23 products.category 4675 non-null object
24 products.created_on 4675 non-null datetime64[ns]
25 products.discount_amount 4675 non-null float64
26 products.discount_percentage 4675 non-null float64
27 products.manufacturer 4675 non-null object
28 products.min_price 4675 non-null float64
29 products.price 4675 non-null float64
30 products.product_id 4675 non-null int64
31 products.product_name 4675 non-null object
32 products.quantity 4675 non-null int64
33 products.sku 4675 non-null object
34 products.tax_amount 4675 non-null float64
35 products.taxful_price 4675 non-null float64
36 products.taxless_price 4675 non-null float64
37 products.unit_discount_amount 4675 non-null float64
38 sku 4675 non-null object
39 taxful_total_price 4675 non-null float64
40 taxless_total_price 4675 non-null float64
41 total_quantity 4675 non-null int64
42 total_unique_products 4675 non-null int64
43 type 4675 non-null object
44 user 4675 non-null object
dtypes: datetime64[ns](3), float64(12), int64(5), object(25)
memory usage: 96.0 bytes
# calculando estatísticos sobre os mesmos dados:
ed_ecommerce.describe()
png

É notável também que a utilização de memória foi de 840 Kbs na pandas dataframe para algo em torno de 96 bytes na dataframe Eland. Isso acontece porque não precisamos extrair o dataset inteiro para calcular essas informações (o Elasticsearch já possui APIs que nos trazem essa informação), fazendo com que a maior parte do workload permaneça no próprio cluster Elasticsearch (3) do qual os dados são extraídos.

Para um dataset pequeno, tais ganhos não parecem ser importantes, mas conforme escalamos este processo para GBs de dados, os benefícios de não manter os dados em memória para análises simples é notável.

Features do Elasticsearch para DataFrames

O Eland abstrai muitas das APIs existentes do Elasticsearch, sem que o(a) cientista de dados precise aprender a sintax peculiar da ferramenta. Por exemplo, é possível extrair o mapping de um índice (algo análogo a extrair os dtypes de uma dataframe pandas), mas não é imediatamente óbvio como fazer isso. Com o dataframe Eland, podemos simples chamar dtypes da mesma forma que faríamos com pandas.

# extraindo os dtypes da dataframe original:
df_ecommerce.dtypes
category object
currency object
customer_first_name object
customer_full_name object
customer_gender object
...
total_quantity int64
total_unique_products int64
type object
user object
geoip object
Length: 23, dtype: object
# para extrair a mesma informação no Elasticsearch, precisaríamos fazer algo como o descrito abaixo:
mapping = es.indices.get_mapping(index_name)
# que por sua vez já é uma abstração do GET request que seria necessário.
print(json.dumps(mapping, indent=2, sort_keys=True))
{
"kibana_sample_data_ecommerce": {
"mappings": {
"properties": {
"category": {
"fields": {
"keyword": {
"type": "keyword"
}
},
"type": "text"
},
"currency": {
"type": "keyword"
},
"customer_birth_date": {
"type": "date"
},
"customer_first_name": {
"fields": {
"keyword": {
"ignore_above": 256,
"type": "keyword"
}
},
"type": "text"
},
"customer_full_name": {
"fields": {
"keyword": {
"ignore_above": 256,
"type": "keyword"
}
},
"type": "text"
}
...
# o Eland reproduz esse mesmo conceito usando a API igual ao pandas
ed_ecommerce.dtypes
category object
currency object
customer_birth_date datetime64[ns]
customer_first_name object
customer_full_name object
...
taxless_total_price float64
total_quantity int64
total_unique_products int64
type object
user object
Length: 45, dtype: object

Com todas essas abstrações, o Eland facilita muito usar features específicas do Elasticsearch que não são implementadas atualmente em pandas (ou pelo menos não são tão eficientes quanto no Elasticsearch), como busca full-text, o caso de uso principal da stack da Elastic.

# definindo a busca full-text que testaremos:
# extraindo os produtores Elitelligence ou Primemaster
query = {
"query_string" : {
"fields" : ["manufacturer"],
"query" : "Elitelligence OR Primemaster"
}
}
# usando full-text search com o eland:
text_search_df = ed_ecommerce.es_query(query)
# visualizando os resultados com seletores de coluna:
text_search_df[['manufacturer','products.price']]
png

Mais possibilidades para integrações

Esse artigo mal tocou em todas as possibilidades que o Eland abre para cientistas de dados e outros profissionais do ramo usando Elasticsearch no dia-a-dia.

Especialmente em contextos de DevOps e AIOps, onde ferramentas e processos de Machine Learning ainda não são tão maduras, profissionais de dados podem se beneficiar amplamente do ecossistema de Machine Learning já existente em Python para analisar grandes volumes de dados de Observabilidade e métricas, assunto que será que abordado em outro artigo.

O Eland certamente representa um grande passo do Elasticsearch e estou animado para saber o que a stack nos tratá no futuro no campo de ciência de dados e machine learning.

Se você gostou deste artigo

Dê uma olhada nesse webinar em que o Seth Michael Larson (um dos criadores do Eland) fala sobre as features principais do pacote.

Se você quer ver mais conteúdo sobre Elasticsearch, Data Science e NLP no contexto de Observabilidade, sinta-se à vontade para me adicionar no LinkedIn e ler mais artigos meus sobre esses temas.

Notas:

  1. No momento, na versão 7.8 do ELK stack, rotinas de Regressão e Classificação ainda são experimentais.
  2. Existem outras formas de consumir informação do Elasticsearch usando uma sintaxe parecida com SQL, como o JDBC driver do Elasticsearch, mas ainda requeririam algum conhecimento prévio em conceitos e estruturas do Elasticsearch (como padrões de índice e paginação).
  3. Isso funciona de uma forma parecida como outras frameworks de processamento distribuído funcionam (como Dask, por exemplo). No caso do Eland, um query builder e gráfo de execução é mantido internamente e realiza as operações apenas no momento em que os dados são efetivamente requisitados.

Referências:

--

--

Mateus Picanço
Data Hackers

Data Scientist @microsoft | Passionate about sharing knowledge and helping businesses build products that empower people.