Improvisando em Data Science

Osemar Xavier
DataFrens.sg
Published in
5 min readNov 21, 2019

Para os apaixonados por análises de dados, aprendizado de máquina e inteligência artificial, estar num ambiente corporativo, dependências de grandes empresas é comum nos depararmos com as barreiras quanto as regras de segurança. Resumindo, você não pode achar que vai sair instalando todas as ferramentas que você quer. Normalmente você tem acessos aos seus e-mails, e aquilo que a empresa acha realmente necessário você ter instalado em sua máquina. Nesse período de experiência como consultor em diversas empresas, foram momentos fantásticos de descobertas. Tenho mais de 10 anos de experiência utilizando Excel, e programando VBA, já fiz análises, mineração, saneamento de dados, otimização e automatização de processos, obtive ganhos incríveis, processos que eram completamente morosos, que tive a oportunidade de otimizar e ganhar eficiência nas suas entregas, seja usando o Excel somente ou utilizando outro software para apoiar. Com o advento hoje da era do Big Data, da quantidade de dados que temos hoje para processar, creio que tem ficado cada vez mais difícil para o nosso querido e amado Excel, provavelmente a Microsoft nos surpreenda com um Excel turbinado ou simplesmente anuncie a extinção do Excel no futuro, ainda não sei, ou substitua pelo Power Bi que na minha opinião é surpreendentemente fantástico, vamos aguardar e saber o que nos aguarda!
Na minha incansável busca pelo conhecimento, aprendi a me adaptar a alguns obstáculos, simplesmente improvisando, claro graças a todo conhecimento que adquiri na minha imersão em Data Science nesse período dedicado apaixonadamente a esse tema que amo, posso dar um exemplo de como faço isso, e de como fiz uso de ferramentas fantásticas que estão disponíveis nas nuvens e pelo menos no meu caso, foi possível utilizar no meu dia-a-dia sem estar burlando as regras de segurança.

R STUDIO CLOUD

Fantástica essa ferramente, basta entrar no acessar o link https://rstudio.cloud/ e fazer o login e sair utilizando. Idêntico ao que utilizamos normalmente, a vantagem que não precisa fazer nenhum tipo de instalação, o mesmo utiliza tecnologia cloud, com alguns diferenciais, você consegue compartilhar seu projeto, nada para configurar no seu computador e dentro desse pacote, muitos materiais de aprendizado: tutoriais interativos que abordam o básico da ciência de dados, folhas de dicas para trabalhar com pacotes R populares e um guia para o uso do RStudio Cloud. Funciona perfeitamente e é possível salvar todos os seus projetos, no meu período que fiz o meu MIT em Big Data, foi super útil, além de estudar, tive a oportunidade de aplicar em alguns projetos no meu trabalho.

GOOGLE COLAB

O mesmo princípio do R Studio Cloud, o Google trouxe todas a facilidades através do Google Colaboratory, um ambiente de notebooks Jupyter que não requer configuração e é executado na nuvem. Todas as experimentações em que você queira realizar, é possível com essa ferramenta robusta. Python é uma linguagem que está sendo utilizada para fins diversos, desde desenvolvimento web até IA, data mining e machine learning. Suas vantagens incluem uma vasta quantidade de ferramentas, bibliotecas e uma sintaxe simples que aceleram o processo de desenvolvimento. É possível salvar e compartilhar seus códigos, o Google Colab é gratuito, hospedado no próprio Google e foi construído com base no Jupyter Notebook. Na minha equipe tive uma demanda que precisei fazer um Web Scraping para extração de dados que estavam em extensão .pdf, não imaginava de que forma iria fazer isso, mas busquei bibliotecas como Beautifulsoap e Selenium que otimizaram muito o meu trabalho, existem diversas formas para executar essa tarefa. Muitas vezes precisei fazer data cleaning, tanto o R como o Python, são excelentes para otimizar essas tarefas.

ORANGE DATA MINING

O Orange Data Mining é uma ferramenta open source, que permite criar um fluxo de trabalho fazendo mineração de dados, sem a necessidade de códigos. A interface dele é drag and drop bem intuitiva, facilitando a usabilidade. Nas minhas pesquisas fiz alguns testes utilizando ela para fazer saneamento de alguns dados que precisava trabalhar. Apesar de não ter muito material disponível na web, achei bem interessante. No Orange é possível usar scripts de Python. Deixo aqui o link para maiores detalhes, realmente vale a pena investir em mais um recurso fabuloso para trabalhar com Data Science, fazendo data mining e criando modelos preditivos, e ainda melhor, sem ter que criar códigos, claro, sem tirar o mérito de outras ferramentas!
http://orange.biolab.si/

APACHE NIFI

Os recursos do NiFi podem realizar uma infinidade de ações como converter formatos de dados, adicionar atributos ao dados e rotear os dados com base em atributos. Há também uma coleção de processadores disponíveis para ingestão de dados de várias fontes, incluindo sites, sistemas de arquivos locais, bancos de dados e fontes externas, assim como dispositivos de borda.Criado pela Agência de Segurança Nacional (NSA), e doado a APACHE em meados de 2014, e utiliza uma tecnologia baseada em fluxo que permite automação do fluxo de dados entre sistemas distintos, uma ferramenta bem poderosa. No ano de 2017 fiz um trabalho em grupo a respeito do uso dessa ferramenta, e a minha conclusão foi que o NIFI é um sistema bem fácil de utilizar, fizemos integração com uma API do Twitter utilizando os recursos, além de usar script em Python, outra facilidade da ferramenta é essa integração, uma excelente opção gratuita e poderosa! Mais detalhes em: https://nifi.apache.org/

KNIME

Um outra solução baseada em fluxo de trabalho para data mining, é possível analisar dados com as mesmas vantagens do NIFI e o ORANGE, além de fazer exploração de insights e previsão. Poderoso, o Knime além dos seus recursos dispostos em forma de blocos, dispõe centenas de exemplos prontos para uso. Utilizei em um projeto dentro da demanda que estava trabalhando, precisava identificar as ocorrências de um determinado grupo de dados, classificar e apresentar isso para os gestores. Foi bem fácil a utilização dele, realmente fácil de utilizar e bem intuitivo, recomendo a todos.

CONCLUSÃO

Bom, existem muitas opções de ferramentas para análise de dados espero que todos compreendam que teríamos que fazer um post bem maior para abordar todas, e tratar especificamente cada uma ficaria ainda maior, por exemplo ferramentas de Data Visualization como Power Bi, QlikView e Tableau, ferramentas que já utilizei em algum momento da minha vida profissional e o ecossistema Hadoop merecem um capítulo a parte. E não podemos deixar de mencionar que a tecnologia quanto a essas ferramentas para Data Science avança de forma muito rápida. Espero poder ajudar pessoas que estejam interessadas nesse tema e espero também em alguma momento, criar novos posts a respeito desses temas!

Originally published at http://oserxavier.com.br.

A Message from DataFrens…

Thanks for being a part of our community!

Do join us here at:

Read all our DataFrens articles here at:

--

--