fonte: bbc.com

Plataforma Analytics: se os dados são o novo petróleo, como superar o desafio de construir sondas economicamente viáveis?

Moisés Simões
consenso-blog

--

1. RESUMO

Ao longo da História, a humanidade passou por algumas revoluções da informação, que alteraram todo o curso do mundo até então conhecido. Da refutação do sistema geocêntrico, essencial para o aperfeiçoamento das grandes navegações, à Revolução Industrial, passando pela invenção da imprensa por Gutenberg, tudo se resumia à maneira com que os dados produzidos e disponíveis para análise eram coletados e transformados em informações úteis, para evidenciar ou embasar os contextos dentro dos quais foram solicitados. Atualmente, na chamada “Era da Informação” propriamente dita (esta em que vivemos, fruto direto do aprimoramento dos métodos científicos, capazes de analisar com precisão os conteúdos à disposição) as organizações produzem de forma interna uma quantidade incalculável de dados, armazenados de maneira exponencial nos mais variados repositórios digitais. A constatação de que tais informações disponíveis possam ser úteis em um momento oportuno é o que diferencia empresas com visão de futuro das demais. É no cerne desta afirmação que nascem os “Big Datas”, “Data Warehouse”, “Data Mart”, “Data Lake”, “Data Mining”, dentre outras bases de dados, integradas aos mais diversos ambientes operacionais, à espera de métodos específicos de mineração e análise. Tais métodos devem partir da ideia de influência relacional, tendo em vista o fato de que, hoje em dia, os indivíduos se caracterizam a partir daquilo que constroem, em sua relação com outros indivíduos, empresas, produtos, conteúdo online, contatos e conexões estabelecidas.

No bojo desta afirmação, a democratização do acesso online, aliada à consolidação de aplicativos que garantem a conexão de um número cada vez maior de pessoas, acarretam um novo número incalculável de novos dados produzidos. São transações, relatórios, gráficos, documentos de texto, áudio, vídeos, mídias sociais: a variedade massiva de dados disponíveis está levando as empresas a considerar não apenas seus dados internos (operacionais ou transacionais), mas todos os dados externos à sua disposição. É do arranjo entre eles que as informações passam a ser mapeadas e geradas, devendo ser frontalmente proporcional ao desafio, a capacidade de precisão das plataformas de análise dessas mesmas empresas. Nesse sentido, perguntas quanto à identificação da variedade, volume, complexidade e integridade desses dados devem ser respondidas com uma velocidade cada vez maior. Nas palavras de SILVA (2018), trata-se do principal desafio das empresas modernas: aprimorar suas iniciativas de inteligência analítica, buscando alternativas para a evolução de suas ferramentas de mineração. Desse modo, considerando o volume de dados ofertados para acesso, e entendendo a qualidade deste acesso como a capacidade de apontar relações à primeira vista não tão evidentes entre eles, construindo, a partir delas, significados estratégicos em determinadas contextualizações, o esforço deste artigo será o de responder à pergunta que o intitula: se os dados são a nova riqueza do mundo, o novo petróleo, quais as maneiras de se construir sondas de exploração que sejam economicamente viáveis para as empresas? Embutida nesta pergunta, está a afirmação de que, nos dias atuais, a quantidade de dados armazenados constitui-se em um ativo de riqueza, da maneira como foi o petróleo anos atrás.

Para respondê-la, este trabalho partirá da definição de “sistemas inteligentes”, conforme o entendimento de QUILICI-GONZALEZ e ZAMPIROLLI (2014), bem como da diferenciação que os autores fazem entre dado, informação, conhecimento, desempenho e inteligência (Idem). Depois, com base em diversas fontes bibliográficas, a tentativa será a de compreender a mineração dos dados em um cenário de repositórios nos quais o volume e a complexidade das informações armazenadas requerem Plataformas Analytics cada vez mais precisas e eficientes, e menos atreladas a abordagens defasadas de coleta e análise. Por fim, baseado em um desenho de QUILICI-GONZALEZ e ZAMPIROLLI (2014) sobre as tarefas da mineração, o esforço será de apontar dois caminhos que tornam as Plataformas Analytics economicamente viáveis para empresas de quaisquer tamanhos: a plataforma de código livre Hadoop e o armazenamento de dados em nuvem.

1. INTRODUÇÃO

O desnível entre o volume de dados registrados e armazenados pelas empresas e o processo de análise destes mesmos dados é grande o suficiente para motivar a busca por ferramentas que tragam à tona as informações que permanecem invisíveis no plano geral, ocultadas pela grande quantidade, que é distribuída nos mais diversos repositórios. É aqui que entra o aporte de uma mineração de dados capaz de transformar quantidade em qualidade, gerando conhecimento estratégico para a empresa. Mas é do aspecto “quantitativo” que parte o conceito de “sistemas inteligentes”, em outras palavras, sistemas capazes de processar um grande volume de dados, abrangendo conhecimento e aperfeiçoando sua performance a partir da própria prática de análise.

Em seu livro “Sistemas Inteligentes e Mineração de Dados” QUILICI-GONZALEZ e ZAMPIROLLI (2014) afirmam, a partir das definições do que seja “sistema” e do que seja “inteligência”, que sistemas inteligentes são:

“(…) aquele sistema capaz de melhorar seu desempenho a partir da própria experiência. Em outras palavras, um Sistema Inteligente deve ter a capacidade de aprender com as informações disponíveis, ou com seus erros”. QUILICI-GONZALEZ e ZAMPIROLLI (2014).

Ou seja: localizar, distinguir, tratar, analisar, verificar, entender as relações e transformar os dados em informações — tudo faz parte desta “própria experiência” a qual os autores se referem. Quanto à aprendizagem com os próprios erros, a perspectiva é sempre operacional ou funcional, e dependente da intenção de quem interpreta as respostas produzidas pela máquina. A partir dessa delimitação, o escopo do conceito é diminuído, até chegar à definição que mais se adequa a este trabalho, a ideia de que sistemas inteligentes são “sistemas computacionais inteligentes, que geralmente utilizam aprendizado de máquina {grifo dos autores} para tomar decisões inteligentes em áreas científicas, comerciais, de segurança, entre outras” (Idem).

Na base desta definição, encontra-se a capacidade dos sistemas inteligentes de se adaptar a situações não previstas, ou fora dos padrões desenhados pelo seu “arquiteto”. Tal adaptação passa pela eficiência e velocidade com que o sistema inteligente toma decisões baseadas na prática de suas funções.

Mas de que forma uma máquina é capaz de aprender, chegando ao ponto de “tomar” decisões? Através de algoritmos de aprendizagem pré-determinados, os quais, segundo FACELLI, LORENA, GAMA e CARVALHO (2011) podem ser afetados pela qualidade em que os dados se encontram. Os mesmos autores, logo em seguida, definem um comportamento inteligente como aquele cuja capacidade de aprender se mantém intacta durante todo o processo de análise. Mas antes de se entrar no terreno da inteligência artificial (IA), essencial para esse aprendizado durante a análise e tratamento dos dados, é preciso seguir com QUILICI-GONZALEZ e ZAMPIROLLI na diferenciação entre dado e informação, e entre desempenho, conhecimento e inteligência.

2.1 Dado

Para os autores (2014), trata-se de um “fato registrado”, ou sua quantidade ou qualidade reconhecida, em estado bruto, isto é, sem tratamento. Tal definição alinha-se com o conceito de FACELLI, LORENA, GAMA e CARVALHO (2011), que considera como dado, o registro, em um banco de dados, de uma referência a um “objeto” (neste caso, abstrato) ou um “fato”, definidos por suas características descritivas, sem interpretação. Por exemplo: uma “cadeira” é um objeto em estado bruto; já uma “cadeira de dentista” seria o “tratamento” deste objeto, interpretado para além de sua descrição física.

Considerando o armazenamento destes dados brutos, NOVO e NEVES (2013) chamam-nos de “não estruturados”, no sentido daqueles que não estão organizados em tabelas ou colunas de um banco de dados tradicional. Para os autores, citando DAVENPORT (2012), são a grande parte dos novos dados, produzidos, por exemplo, por empresas como a Google, “que processa diariamente 24.000 terabytes de dados”, sendo que apenas uma pequena parcela destes são armazenados em bases de dados tradicionais.

Já AGOSTINI (2017) define dado a partir de sua mineração, ao dizer que são entidades (documentos) à espera de uma ferramenta que descubra similaridades entre eles, gerando conhecimento a partir da análise de suas ocorrências em comum. Nesse sentido, pode-se afirmar que, na literatura especializada, é comum considerar um dado como algo que, possuindo atributos que o descrevem, são registrados, ficando à disposição das análises.

MUCCIOLO (2017) retorna à questão do armazenamento, afirmando que a capacidade de registrar e processar esses dados cresce junto com seu volume, confirmando NOVO e NEVES (2013), na avaliação de que grande parte desses novos dados se referem aos “não estruturados”, e alertando que a produção de conhecimento a partir deles requer etapas tais como a coleta, pré-processamento e indexação.

2.2 Informação

Quanto à informação, esta seria, conforme QUILICI-GONZALEZ e ZAMPIROLLI (2014) a contextualização dos dados propriamente dita: aquilo que define o significado de um conjunto de dados, a partir de padrões de associação que não estavam visíveis à primeira vista. É na definição do que seja informação que os autores consideram como “metadado” aquele dado que faz referência a outro dado, não a um fato ou a um objeto, estando na origem da informação, ou confundido com ela.

A ideia da informação como síntese das relações entre os dados está também em GIMENEZ (2018), que coloca a análise, coleta e disseminação de dados como sinônimo de informação e base do que o autor chama de “inteligência competitiva”: a capacidade de manter um acervo de informações acionável, pronto para fundamentar a construção de estratégias e táticas empresariais, bem como sua avaliação e reconsideração.

CARVALHO e DALLAGASSA (2014) compreendem a informação como complementar ao conhecimento, dentro da perspectiva de sua coleta, e vice-versa, “dependendo da situação de contexto do problema de gestão em questão”. Grosso modo, trata-se de avaliar se o contexto acolhe a formulação de premissas que orientem a extração de informações que validem as premissas dadas, ou se as premissas não são suficientes, sendo necessária a mineração dos dados. Em caso afirmativo, teríamos a informação; em caso negativo, conhecimento.

Este trânsito de dados e informações, que fluem e se conformam de acordo com o referencial, não escapa a QUILICI-GONZALEZ e ZAMPIROLLI (2014). No instante em que afirmam que o que se aceita como sendo “informação” em um contexto, pode ser considerado “dado” em outro, estão dizendo que tudo depende da referência e da intenção da análise.

2.3 Conhecimento

Da complementaridade entre informação e conhecimento, exposta por CARVALHO e DALLAGASSA (2014), chega-se à noção de QUILICI-GONZALEZ e ZAMPIROLLI (2014). Segundo os quais, o conhecimento:

“(…) se forma a partir das informações, necessárias para o entendimento de uma situação. Nesse contexto, conhecimento é o resultado da análise das informações relacionadas a um fato ou evento, ou ainda a percepção de como certa informação pode ajudar na realização de uma tarefa específica”. QUILICI-GONZALEZ e ZAMPIROLLI (2014).

Em seguida, os autores chegam a uma noção hierárquica entre dado, informação e conhecimento, a partir da qual se pode afirmar que os dados estariam na base da pirâmide, as informações processadas no meio, e o conhecimento (ou análise) no topo.

Figura 1: Pirâmide Hierárquica entre Dados, Informação e Conhecimento.

Todas estas camadas hierárquicas estão dentro daquilo que MALAVSKI, LIMA e COSTA (2010) estabelecem como sendo o “capital estrutural” de uma empresa, o que engloba seu banco de dados (base e meio da pirâmide) e processos organizacionais, softwares, procedimentos e sistemas (topo). É dentro destas camadas que as Ferramentas Analytics se inserem, como vetores que, a partir da coleta, análise e transformação dos dados em informação e conhecimento para as empresas, realizam a movimentação entre as camadas dessa hierarquia, conforme será visto neste artigo, quando se falar sobre mineração de dados no ponto 2.6. Por hora, a alusão a estas ferramentas serve para delimitar o desempenho dos sistemas, de acordo com o próximo ponto.

2.4 Desempenho

QUILICI-GONZALEZ e ZAMPIROLLI (2014) definem o desempenho por comparação entre o resultado alcançado e a meta definida, ou entre os esforços depreendidos para se chegar ao resultado com seu valor final. Ou seja, trata-se de uma relação de entrada e saída, onde a eficiência durante a transformação estratégica dos dados é mensurada. À primeira vista, tal definição pode ser vista como uma forma esquemática e limitada. No entanto, se pensarmos em termos de um monitoramento de desempenho, com indicadores analíticos concretos, mediante o qual os processos de melhoria contínua possam ser visualizados via estágios de evolução, sua validade se torna mais clara. Além disso, poder quantificar o desempenho de maneira otimizada condiz com um cenário de negócios de complexidade alta, onde uma das vantagens primordiais é a rapidez na análise, sendo essencial para a caracterização do próximo conceito, que indica a utilização eficiente de todo o arsenal de dados disponíveis para as empresas.

2.5 Inteligência

Se, conforme vimos até então, o dado é a referência a um fato ou objeto registrado; a informação, sua aplicação em determinado contexto; o conhecimento, o resultado da análise desse contexto e o desempenho, a comparação entre o produto desse conhecimento e sua meta; a inteligência, para QUILICI-GONZALEZ e ZAMPIROLLI (2014), é a “aplicação do conhecimento gerado para a obtenção de um fim determinado” para os fins de vantagens competitivas.

A mineração de dados via Plataformas Analytics se insere nesta definição de “inteligência”, expandindo-se para abarcar todas as definições citadas, dentro do que se convencionou chamar de “Descoberta ou Extração de Conhecimento em Bases de Dados, ou Knowledge Discovery in Databases, ou simplesmente KDD” (Idem) o qual, grosso modo, compreende do pré-processamento dos dados ao pós-processamento dos resultados da mineração. Assim, a implementação de sistemas inteligentes na linha de frente dos processos de análise estratégica deve-se, essencialmente, a dois fatores: primeiro, ao auxílio, cada vez mais veloz e em tempo real, às tomadas de decisões dos gestores de empresas; segundo, à constatação de que a complexidade dos problemas que surgem quase nunca está garantida pela predição de padrões das plataformas disponíveis, o que torna a mineração de dados cada vez mais uma questão de investimento em procedimentos artificiais de aprendizagem.

Fazer um sistema “aprender” seria, como vimos na Introdução deste trabalho, fazê-la agir logicamente, enquadrando seus procedimentos em modelos de lógica formal e algoritmos, através dos quais este sistema busque padrões em uma quantidade de dados considerável, analisando-os das mais variadas formas e criando novos padrões e predições a partir da coleta, simulando algo próximo ao raciocínio por combinação da inteligência humana. Saber onde estes dados ficam dispostos é o primeiro passo para entender depois os processos de tomadas de decisão com base na distinção desse conhecimento acumulado.

1.6 Mineração de Dados

A principal expectativa quanto a mineração de dados é a obtenção do conhecimento, isto é, o alcance de uma “representação de conhecimento na forma de regras ou de estruturas equivalentes, que orientem uma decisão” (QUILICI-GONZALEZ e ZAMPIROLLI 2014). Citando ELMASRI (2005), AGOSTINI (2017) define a mineração em seu sentido etimológico, como uma espécie de “garimpagem” e descoberta de novos padrões de informações, armazenadas em grandes quantidades de dados.

As Ferramentas Analytics, combinadas com a mineração de dados, definem os repositórios lógicos desses dados. A escolha entre um e outro depende das necessidades e do perfil de inteligência competitiva de cada empresa. Os principais tipos de armazenamento de dados são:

a) Big Data — de acordo com GIMENEZ (2018), é definido tendo em vista três dimensões essenciais: volume (número de dados), velocidade (análise e processamento de grandes quantidades de dados em tempo real) e variedade (dados de fontes, de tipos e de estruturas diversas), estando associado ao crescimento e ao uso de dados estruturados e não-estruturados com resultados em alto desempenho e disponibilidade (FRANKS, 2013 apud 2018). Em outras palavras, o Big Data é um grande e dinâmico complexo de dados, gerados e expandidos em progressão crescente, e de maneira cada vez mais rápida. Estes dados derivam das mais diversas fontes, e permanecem em estado “bruto”, de forma estruturada ou não-estruturada, tratados ou não tratados, até que um modelo de captura, processamento e análise, extraia deste universo aparentemente caótico um conjunto de informações estratégicas.

b) Data Warehouse — segundo OLIVEIRA E SÁ (2009), trata-se de uma “coleção de registros informacionais integrados, orientados a um tema, não voláteis e variantes no tempo, de forma a suportar o processo de decisões da gestão” (INMON apud 2009). Nesse sentido, os dados em um Data Warehouse são pincelados de origens diversas, organizados em assuntos no intuito de fornecer uma visão homogênea, marcados com uma dimensão temporal e são estáveis — não sendo nunca removidos ou alterados. Em suma, trata-se de uma base de dados integrada com outros ambientes operacionais dos quais recebe informações, as quais são posteriormente tratadas, arquivadas sob uma chave ou tema, armazenadas e padronizadas em um único “armazém” de dados que, depois de tratados e inseridos, não podem ser mais alterados, convertendo-se em uma base confiável de informações íntegras.

c) Data Mart — Ribeiro (2005) define o Data Mart em relação ao Data Warehouse, classificando-o como um banco de dados multidimensional ou relacional de menor tamanho, minerado para agregar uma coleção de dados mais específicos, de modo que “as diferenças entre um Data Mart e um DW são apenas em relação ao tamanho e ao escopo do problema a ser resolvido”. MACHADO (2014) chega a afirmar que o Data Mart é um recorte do DW, cuja função é a de delimitar ainda mais as informações, até particularizá-las o suficiente para que se tornem relevantes apenas para um departamento ou função. Essa departamentalização do Data Mart garante maior performance quando o assunto são consultas rápidas, e sua principal vantagem é uma grande precisão de granularidade.

d) Data Lake — em seu artigo “Data Lake, a fonte do Big Data” [1], o especialista em TI David Matos informa que Data Lake é um conceito recente, criado pelo CTO do Pentaho James Dixon, cuja definição se dá em comparação ao Big Data, como o resultado das relações dos dados armazenados nesse grande e complexo repositório. RIBEIRO (2015) esclarece ainda mais, afirmando que a “arquitetura de um Data Lake é uma abordagem orientada para Big Data”, o que significa dizer que os dados extraídos do Big Data para o Data Lake não são, inicialmente, classificados, o que só acontece durante o processo de análise. Ainda segundo RIBEIRO (2015), tal característica confere algumas vantagens ao Data Lake, dentre elas, o desempenho em capturar e armazenar dados com baixo custo. Nesse sentido, o Data Lake seria uma estância de tratamento e processamento de dados não estruturados que transitam nas empresas. Uma vez processados no Data Lake, estes mesmos dados podem ser apurados e distribuídos para as demais fontes de dados, percorrendo uma trajetória de tratamento instigante para a riqueza informacional das empresas.

CARVALHO e DALLAGASSA (2019) defendem que as principais condições para o uso da mineração de dados por uma empresa são, primeiro, a conveniência de modelar e popular suas bases de dados, integrando-as. Segundo os autores, isso garante as condições de coleta, consistência e armazenamento dos dados para uma consequente extração. Porém, interagir com essa diversidade de fontes de dados, exemplificada acima na tipologia de seus armazenamentos, é um desafio. Para enfrentá-lo é que entram as Plataformas Analytics. Como, em geral, as empresas têm várias fontes de dados, em diferentes tecnologias e plataformas, o esforço central deste trabalho é o foco no custo de investimento básico necessário para que a empresa consiga concentrar esses dados para tratá-los, de maneira que seja possível extrair deles os insights exigidos. Optar por uma implementação que seja, ao mesmo tempo, eficiente e economicamente viável, é a questão essencial diante do aumento da disponibilidade destes dados.

1. O ALTO CUSTO DAS ONDAS DE PERFURAÇÃO

Do que vimos até aqui, entendemos que a velocidade com que os dados são gerados atualmente deve ser, na medida do possível, igual à sua velocidade de captura, análise e utilização destes mesmos dados, transformados em informações, para as tomadas de decisão das empresas. Porém, para que este processamento em tempo real ocorra, é necessário antes o desenho de um projeto de mineração de dados, compatível com a realidade de cada empresa.

Segundo BRAGA (2005), “um projeto de mineração de dados não é diferente em seus aspectos gerais de um projeto em tecnologia da informação”, e dentre os aspectos gerais que viabilizam o projeto conta-se, além do seu escopo, necessidades, cronograma e equipe, o custo. Sobre o valor deste custo, incide a complexidade da natureza de cada tarefa da mineração de dados. A Figura 2 abaixo visualiza a classificação dessas tarefas, sendo baseada em QUILICI-GONZALEZ e ZAMPIROLLI (2014).

Figura 2: Tarefas de Aprendizado da Mineração de Dados.

Conforme FACELLI, LORENA, GAMA e CARVALHO (2011), as tarefas de aprendizado dividem-se em duas frentes: preditivas e descritivas. Nas preditivas, o objetivo é encontrar um modelo capaz de prever “um rótulo ou valor que caracterize um novo exemplo, com base nos valores de seus atributos de entrada e saída”. Em outras palavras, trata-se da capacidade de, tendo em mãos ferramentas de inteligência artificial e estatística, aliadas ao grande volume de dados, realizar uma análise preditiva precisa (o “novo exemplo”), a partir da classificação, regressão e detecção de anomalias dos dados, dentro de recorrências. Concordante com a definição, CARVALHO e DALLAGASSA (2014) entendem o aprendizado preditivo como a análise de dados cujas referências são eventos anteriores (“regressão”), na tentativa de encontrar relações entre eles que prevejam situações semelhantes no futuro.

Quanto às tarefas descritivas, FACELLI, LORENA, GAMA e CARVALHO (2011) as entendem a partir dos seus objetivos, que são os de “explorar ou descrever um conjunto de dados”. Neste caso, segundo os autores, as etapas não consideram os atributos de saída, uma vez que sua função é identificar grupos de dados semelhantes no conjunto de dados, seja por regras de associação, seja via clusterização, que tanto pode ser entendida como a análise de um agrupamento de dados, quanto em relação à infraestrutura de ativos, associada ao processamento das informações (conjunto de computadores que operam em sincronia, funcionando como um único computador). Na essência, CARVALHO e DALLAGASSA (2014) definem as tarefas descritivas partindo da análise capaz de apontar “similaridades (agrupamentos) ou associações (regras de associações)” entre os dados.

A questão é que, no geral, a implementação de soluções de mineração de dados possui um custo elevado, considerando-se, também, os custos de manutenção das bases de dados, nas quais os aprendizados de máquina são gerados. Esse custo pode dificultar o desenho do projeto em se tratando de empresas médias e pequenas, as quais, comumente, dispõem de baixa capacidade de investimento para a área de tecnologia da informação.

Desse modo, buscar soluções de baixo custo e alto desempenho é um dos desafios que as empresas enfrentam. Olhando para a Figura 2, é possível afirmar que, dentre as tarefas de uma mineração de dados, a que apresenta maior custo operacional para as empresas que querem passar a ser orientadas por dados, é a clusterização. Uma das soluções que viabilizam economicamente uma Plataforma Analytics quanto à sua abordagem em clusterização é a solução de armazenamento Hadoop, geralmente utilizada para minerar dados do Big Data e Data Lake.

Em seu artigo “Processamento de Dados com Hadoop”, David Matos (2015) define Hadoop como “uma solução open-source de processamento de dados” cujo principal objetivo é “o processamento de dados de alto volume e variedade, por meio de computação de larga escala”. Essa ferramenta de código-livre processa e agrupa grandes quantidades de dados estruturados, semiestruturados e não-estruturados, disponibilizando um ambiente acessível de extração de informações e formulação de previsões dos dados da empresa.

Segundo GIMENEZ (2018): “Hadoop é uma plataforma de software para computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção à tolerância e a falhas. Foi inspirada no MapReduce e no GoogleFS”. Sobre sua acessibilidade, o autor acrescenta ainda que, considerando o grande volume de dados existente, o Hadoop pode ser utilizado para uma gama infinita de aplicações quando o assunto é processamento massivo. A redução de custos para aqueles que a utilizam está não apenas no fato de não ser necessário pagar royalties para nenhum software proprietário, mas principalmente pela sua maleabilidade em poder rodar em qualquer hardware comum.

Enfim, Hadoop é uma plataforma capaz de agrupar e processar, em grandes quantidades, diversos conjuntos de dados, como, por exemplo, aqueles disponíveis em um Big Data, funcionando em clusters de hardware de baixo custo e tolerante a falhas. Segundo artigo do POWERDATA (2015), pelo tratamento de grandes volumes de dados a um custo baixo, no que se refere ao orçamento, a utilização do Hadoop se encontra ao alcance até das pequenas empresas.

Quanto ao custo do armazenamento dos dados, CECI e FONTANA (2012) atentam-se para o fato de que a quantidade sempre crescente de dados exige a necessidade de discos rígidos de armazenamento maiores, o que acaba se constituindo em um processo constante, uma vez que os dados não param de ser produzidos. Nesse sentido, novas tecnologias de armazenamento se tornam tão necessárias quanto a escolha de Plataformas Analytics para processamento.

De acordo com a colocação, MARQUESONE (2016) informa que empresas que mantêm Big Datas têm utilizado do armazenamento em nuvem para criar suas soluções analytics economicamente viáveis. As vantagens seriam a elasticidade dos recursos, escalabilidade e qualidade, somadas à redução de custo e ao aumento do desempenho. Grosso modo, o armazenamento em nuvem é uma tecnologia que permite o registro de dados em um servidor online, dispensando a necessidade de um HD (disco rígido) físico para armazená-los. À primeira vista, a redução de custo se dá na dispensa de adquirir hardware sempre que o volume de dados aumentar, uma vez que o ambiente digital onde são registrados estão ligados a um ou mais servidores cujo acesso depende apenas de uma conexão de internet.

SILVA (2018) associa o uso do armazenamento em nuvem com a popularização de APIs, cuja disponibilidade “enriquece o ambiente de transação de dados”, permitindo que “negócios migrem para as plataformas digitais”.

Tal migração, no entendimento de SOUSA, MOREIRA, MACÊDO e MACHADO (2010), depende apenas do tempo, uma vez que os chamados SGBDs (Sistemas de Gerenciamento de Banco de Dados) são “candidatos em potencial” para subirem à nuvem, graças à complexidade de instalações que aumentam exponencialmente o custo, tanto com hardware quanto com software. “Para muitas empresas”, prosseguem SOUSA et al, “especialmente para start-ups e médias empresas, o pagamento baseado no uso do modelo de computação em nuvem, juntamente com o suporte para manutenção do hardware, é muito atraente”.

Ademais, outro benefício apontado pelos autores é o de que, no armazenamento em nuvem, os custos operacionais são considerados em conjunto apenas com o desempenho, uma vez que a “hospedagem” do banco de dados na nuvem repasse o controle da infraestrutura para o provedor da nuvem, aliviando a carga em termos de tarefas administrativas e configuração de sistema.

Para além das reduções de custo de quem utiliza a plataforma Hadoop e o armazenamento de dados em nuvem, outra determinante deve ser considerada para conceituar as sondas de mineração de dados economicamente viáveis. Trata-se do conceito de Retorno do Investimento (ROI) aventado por BRAGA (2005). Para o autor, trata-se de uma operação posterior à definição do Projeto de Analytics feito para a empresa, quando o resultado financeiro do projeto é calculado em termos de porcentagem do seu custo. Nesse sentido, “se um projeto para a detecção de fraude evitou perdas de um milhão de reais e o projeto de mineração custou 100 mil, então, o ROI é de 900%”. Sendo assim, a análise do investimento deve levar em conta se o seu retorno superou os custos, e seu resultado deve entrar na apreciação da redução de custos contemplada durante o desenho do projeto.

1. CONSIDERAÇÕES FINAIS

Cada vez mais, as circunstâncias do mercado requerem das organizações a habilidade de responder, de uma maneira instantânea e eficaz, a desafios significativos, para os quais a extração e análise de grandes quantidades de dados são essenciais. Empresas cujos gestores orientam suas decisões baseados nas ferramentas de análise de seus bancos de dados, os quais são tratados e transformados em informações estratégicas, são empresas com visão de futuro.

Tais ferramentas, as chamadas plataformas analytics, devem minerar os dados disponíveis tendo em vista não apenas a velocidade e a qualidade das informações, mas também o conceito de interação relacional, a partir do qual tanto os dados internos (operacionais ou transacionais) das empresas quanto os dados externos, são levados em conta na produção da informação. Atualmente, este tipo de mineração de dados é considerado o ponto alto da pirâmide hierárquica que parte dos dados, passa para a transformação destes dados em informações, e da aplicação destas informações em um determinado contexto, isto é, a produção de conhecimento organizacional propriamente dito.

Considerando que os dados são a nova riqueza do mundo, o novo petróleo, a construção de sondas de exploração economicamente viáveis para empresas de todos os portes passa pela utilização de plataformas de processamento de custo mais acessível (como o Hadoop) e pelo armazenamento de bancos de dados em nuvem, que diminui o investimento necessário em hardware, simplificando a complexidade de instalações que aumentariam o custo do projeto, ao resumi-las a servidores cujo acesso depende apenas de uma conexão de internet. Além disso, é necessário o conhecimento dos diferentes repositórios nos quais o volume e a complexidade das informações são armazenadas, na tentativa de verificar qual deles melhor se adequa à mineração de dados compatível com a realidade de cada empresa, tendo em vista o desenho da natureza de cada tarefa da mineração de dados que se quer implementar.

Neste artigo, buscou-se, a partir do levantamento bibliográfico, sugerir saídas para que a viabilidade econômica de um Projeto de Analytics não seja um empecilho, mesmo para empresas de pequeno porte que desejem o aporte de ferramentas de mineração de dados capazes de transformar quantidade em qualidade, gerando conhecimento estratégico para a empresa.

REFERÊNCIAS BIBLIOGRÁFICAS

BIG Data: Hadoop és solo para las grandes empresas? Powerdata. 04 de fevereiro de 2015. Disponível em:

<https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/402575/Big-Data-Hadoop-es-s-lo-para-las-grandes-empresas>

BRAGA, Luís Paulo Vieira. Introdução à Mineração de Dados. Rio de Janeiro, 2° Edição Ampliada, 2005. Editora E-papers.

CARVALHO, D. R.; DALLAGASSA, M. Mineração de Dados: Aplicações, Ferramentas, Tipos de Aprendizado e Outros Subtemas. Novas Práticas em Informação e Conhecimento. Curitiba, v. 3, n. 2, p. 82–86, julho/dezembro. 2014. Disponível em: < https://revistas.ufpr.br/atoz/article/view/41340/25333 >. Acesso em: 23/08/2019.

CECI, Flávio. Business Intelligence. (Online), 2012. Disponível em:

<http://www.smpark.com.br/site/static/placar/%5B6432_-_19829%5Dbussines_inteligence.pdf>

DATA Lake, a Fonte do Big Data. David Matos. Ciência e Dados. 14 de novembro de 2015. Disponível em:

<http://www.cienciaedados.com/data-lake-a-fonte-do-big-data/>. Acesso em: 27/08/2019.

FACELLI, K. LORENA, A. C. GAMA, J. CARVALHO, A. C. P. L. F. Inteligência Artificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro, Editora GEN. 2011.

GIMENEZ, Maycon Franco Lourenço. Os Efeitos da Utilização do Big Data na Inteligência Competitiva. (Online), 2018. Disponível em:

<http://tede.mackenzie.br/jspui/handle/tede/3822>

MACHADO, Luís André Pinto. Definição de Indicadores de Desempenho e Construção de um Data Mart para a Adira SA. (Online), 2014. Disponível em:

<https://repositorio-aberto.up.pt/bitstream/10216/90154/2/31763.pdf>

MALAVSKI, Oliver Sebastião. LIMA, Edson Pinheiro de Lima. COSTA, Eduardo Gouvea da. Modelo para a mensuração do capital intelectual: Uma abordagem fundamentada em recursos. (Online), 2010. Disponível em:

< http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-65132010000300012>

MARQUESONE, Rosângela. Big Data: Técnicas e Tecnologias para Extração de Valor de Dados. São Paulo, Editora Casa do Código, 2016.

MUCCIOLO, Daniel Costa Viana. Mineração de Textos: Confluência de Saberes na Busca da Produção de Conhecimentos. (Online), 2017. Disponível em:

< http://artefactum.rafrom.com.br/index.php/artefactum/article/view/1528>

NOVO, Rafael. NEVES, José Manoel Souza das. Inovação na inteligência analítica por meio do Big Data: características de diferenciação da abordagem tradicional. (Online), 2013. Disponível em:

<http://www.portal.cps.sp.gov.br/pos-graduacao/workshop-de-pos-graduacao-e-pesquisa/008-workshop-2013/trabalhos/desenvolvimento_de_tecnologia_e_sistemas/121191_32_44_FINAL.pdf>

OLIVEIRA E SÁ, Jorge Vaz de. Metodologias de Sistemas de Data Warehouse. (Online), 2009. Disponível em: <https://repositorium.sdum.uminho.pt/handle/1822/10663>

PROCESSAMENTO de Dados com Hadoop. David Matos. Ciência e Dados. 25 de agosto de 2015. Disponível em:

< http://www.cienciaedados.com/processamento-de-dados-com-hadoop/>. Acesso em: 30/08/2019.

QUILICI-GONZALEZ, J. A., ZAMPIROLLI, F. A. Sistemas Inteligentes e Mineração de Dados. Santo André: Triunfal Gráfica e Editora, 2014.

RIBEIRO, Rogério F. Business Inteligence como Garantia de Diferencial Competitivo. (Online), 2005. Disponível em:

<http://docplayer.com.br/529084-Business-intelligence-como-garantia-de-diferencial-competitivo.html>

RIBEIRO, Luís Rafael Araújo. Data Analytics: Abordagem para Visualização da Informação. (Online), 2015. Disponível em:

<https://repositorium.sdum.uminho.pt/bitstream/1822/40314/1/Lu%C3%ADs%20Rafael%20Ara%C3%BAjo%20Ribeiro.pdf>

SILVA, João Gabriel Saraceni Lima da. Novas Fontes de Dados para Inteligência Analítica. (Online), 2018. Disponível em:

<http://bibliotecadigital.fgv.br/dspace/handle/10438/20714>

SOUSA, F. R. C., MOREIRA, L. O. MACÊDO, J. A. F. MACHADO, J. C. Gerenciamento de dados em nuvem: Conceitos, sistemas e desafio. In SWIB 2010, 1. ed. SBC, pp. 101–130, 2010. Disponível em:

<http://200.17.137.109:8081/novobsi/Members/josino/fundamentos-de-banco-de-dados/2012.1/Gerenciamento_Dados_Nuvem.pdf>

[1] Disponível em <http://www.cienciaedados.com/data-lake-a-fonte-do-big-data/>. Acessado em: 27/08/2019.

--

--

Moisés Simões
consenso-blog

Mestre em Engenharia de Software, vivendo no meio de desenvolvimento de software e imergido no desenvolvimento de negócios GovTech