Como é trabalhar com Ciência de Dados, por Jessica Temporal

Esse post é uma entrevista sobre o que um(a) profissional pode dizer a respeito da sua área de atuação visando mostrar para outras pessoas como é trabalhar no que fazem, esclarecendo para algumas pessoas se elas se dariam bem trabalhando na área ou mesmo só para mostrar para outras pessoas como é trabalhar com isso.

Published in

CollabCode

11 min readNov 26, 2019

A entrevistada desta vez é informata biomédica, desenvolvedora, hacker de dados e podcaster. Uma mulher forte, trabalhadora, dedicada que nas horas vagas assiste bastante seriado e gosta de cuidar do seu jardim. Hoje vamos conhecer um pouco da profissão da Jessica Temporal.

Olá! Meu nome é Jessica Temporal, me formei algum tempo num curso exótico chamado, Informática Biomédica e sou apaixonada por tecnologia. Muito de quem sou hoje está atrelado a essa paixão. Por exemplo, faço parte de comunidades de programação e grupos de incentivo a diversidade na tecnologia, além disso, criei em conjunto com a Leticia Portella e o Gustavo Coelho, um podcast sobre ciência de dados o Pizza de Dados. Trabalho no iFood como cientista de dados no time de Data e AI e nas horas vagas vejo muito seriado, bordo ponto cruz e cuido do jardim de casa.

Quando essa entrevista foi feita Jessica estava no grupo globo, mas no momento que estamos publicando em nosso blog ela já faz parte do time do iFood como data science especialist.
Quem sabe se no futuro conseguimos entrevista-lá novamente para nos contar o que anda fazendo no iFood.

Informática Biomédica, muito massa! Cheguei a tentar uma vez mestrado em Bioinformática. Você poderia explicar qual foi o foco desse curso?

Quando entrei na faculdade, o curso tinha um senso comum de que, as escolhas de atuação ao se formar eram principalmente três: sistemas, imagens médicas e Bioinformática.

Em sistemas, o foco era desenvolver software para gerenciamento na área de saúde então, imagine, por exemplo, os sistemas que rodam dentro de hospitais. Na área de imagens médicas, o objetivo é identificar estruturas e melhorar a qualidade das imagens geradas por exames médicos. Já na parte de Bioinformática, era analisar dados gerados para entender mecanismos celulares, desde células de câncer até entendimento de cadeias proteicas com base na conformação das proteínas.

Em algum momento durante os seis anos que passei na faculdade, um professor estava em busca de alunos para ajudar a organizar um curso de verão de Bioinformática, área que até então não conhecia. Me candidatei para fazer parte do time de voluntários do curso justamente com o objetivo de conhecer a área e me apaixonei. Foi com o mesmo professor que fiz algumas iniciações científicas e conheci de verdade a área de ciência de dados.

Estaria enganado em afirmar que a academia e a comunidade foram incentivadores fortes para você atuar com Ciência de Dados hoje em dia?

Só para esclarecer o time que faço parte chama GData Analytics, mas fazemos tudo de dados, não só analytics por si mesmo. Definitivamente a academia e a comunidade foram fatores gritantes para eu me encontrar no mundo de dados.

No começo da faculdade pensava que, após formar, eu estaria mais numa área gerencial e desenvolvendo sistemas para isso, é algo que tenho afinidade e até facilidade de entender. No entanto, a oportunidade de conhecer ciência de dados, me mostrou um foco de trabalho muito mais interessante no meu ponto de vista. Fazer parte da comunidade só me trouxe coisas boas nesse sentido também. Fez florescer um amor pela programação e aguçou meu lado inquisitivo, ambas habilidades que uso muito. Aquela coisa né?! Trabalhe com o que ama e não terá que trabalhar um dia se quer.

Quando te conheci lá na Bahia você fazia parte do projeto serenata de amor, isso te fez chegar onde você está hoje?

Sim, Serenata foi um grande salto para me fazer perder o sotaque acadêmico de fazer ciência e investigar dados. Foi uma excelente experiência que me fez crescer muito. Me faz até hoje, uma vez que continuo como voluntária no projeto.

Como é que você conheceu área de Data Analytics?

Entrando no emprego que estou hoje haha. Claro que já havia escutado o termo e visto palestras por aí, mas nunca tive a oportunidade de lidar com esse tipo de dado. Então no emprego novo, essa oportunidade apareceu e está sendo um desafio interessante.

Como é que funciona a sua rotina de trabalho? Tipo a rotina de uma pessoa desenvolvedora geralmente é entender o que vai ser desenvolvido, planejar o tempo para desenvolver, corrigir bugs, etc. Mas sua rotina de trabalho como funciona?

Na verdade é quase igual, nós temos um objetivo, por exemplo, fazer uma clusterização ou implementar um modelo, daí fazemos um planejamento: nisso definimos “x” tempo para exploração, depois mais “y” para testes iniciais e definir resultados, mais “z” para melhoria de modelo caso necessário e mais “w” para implementação do “entregável” seja isso uma apresentação ou um dashboard, ou um modelo que vai ficar rodando na nuvem por determinado período…

A diferença entre isso e o desenvolvimento “tradicional” é que normalmente os tempos para desenvolvimento de modelos e exploração são muito variados, enquanto no desenvolvimento tradicional numa sprint nós fazemos varias coisas entre implementação da funcionalidade e correção de bugs, geralmente cada uma dessas etapas iniciais (x, y e z) demoram uma sprint, cada uma, principalmente se forem dados novos… obvio que isso depende do projeto que estamos mexendo.

Como você se envolveu com o Serenata de amor e como foi essa sua primeira experiência de trabalhar com Ciência de Dados?

Por estar envolvida na comunidade Python de Ribeirão Preto, participei de um sprint de um final de semana que rolou lá para ajudar a resolver questões do Serenata. Nesse final de semana eu consegui contribuir com o projeto e conhecer um dos mantenedores, o Eduardo Cuducos. Alguns meses depois desse sprint, o Serenata estava procurando mais um cientista de dados para fazer parte do time, e o meu nome apareceu na lista de possibilidades por já ter um background de ciência de dados.

Agora um detalhe, durante a sprint a minha contribuição foi para o Jarbas, não cheguei nem perto da parte de ciência de dados do projeto, principalmente por que tudo que eu sabia de ciência de dados era em R e o projeto usa Python. Meu conhecimento de Python até então era limitado a desenvolvimento web e NLP (processamento de linguagem natural) tanto, que a minha contribuição foi para o Jarbas.

Quando o Cuducos e depois o Cabral entraram em contato comigo para ver se dava match com a vaga, obviamente expliquei esses pontos de que meu background de análise de dados era todo no contexto biológico e com R, além disso minha experiência com trabalho remoto também tinha sido um tanto limitada, mas se topassem me ajudar eu estava super disposta a enfrentar esse novo desafio. Quando a proposta chegou não tive dúvidas em aceitar apesar daquele medinho e da síndrome do impostor batendo de leve na porta.

Aprendi muito com o pessoal da Serenata e sou muito feliz de ter tido a oportunidade trabalhar com eles.

Dessa primeira oportunidade, chegamos a onde você está hoje. Pode nos contar como aconteceu esse salto?

Hmmm, o serenata me fez conhecer muitas pessoas, muitas mesmo, para você ter uma ideia, num ano de serenata dei treze palestras, a maioria delas sobre o projeto. Uma das pessoas que conheci e fiquei amiga foi o Rodolfo Viana, na época jornalista da rede globo, que era muito próximo do projeto (hoje ainda é, mas posso entrar em detalhes disso depois). O ajudei bastante nos estudos sobre ciência de dados, coisa que ele sempre se interessou e estava estudando por conta e usando o Serenata como inspiração.

Apesar de me afastar de ciência de dados durante um ano, continuei com projetos nessa área, no fim do ano passado, Rodolfo trocou oficialmente a chave de jornalista para cientista de dados e começou a trabalhar no time GDataAnalytics… Quando surgiu a oportunidade me indicou, passei pelo processo seletivo deles e agora tu já sabe o fim da história.

Você tava afastada da área. Então por que você escolheu ir para a GDataAnalytics e ser Cientista de Dados quando a oportunidade apareceu?

Não é porque você se afasta da área que deixa de ser cientista de dados. Para começar apesar de a ciência de dados não ser meu “day job” continuei estudando e envolvida no meio (com o Pizza de Dados, por exemplo), então os estudos constantes no tempo livre continuaram.

Ouso dizer que tinha dois trabalhos estudava ciência de dados à noite e aquele que focava em desenvolvimento de software durante o dia então a vontade de voltar a ser cientista sempre foi muito presente no meu dia a dia, quando a oportunidade apareceu, agarrei 😉.

De onde nasceu a ideia de um projeto de podcast e o que ele é?

Bem, Eu, a Letícia e o Gustavo, compartilhávamos muito conteúdo de ciência de dados entre a gente além de conversar muito sobre as coisas do ramo né. Daí conversando um dia sobre compartilhar essas coisas que conversamos, o Gustavo veio com a ideia de fazermos um canal no YouTube. Aí a Letícia virou e falou assim “deus me livre”. E aí, conversa vai conversa vem, alguém falou “e um podcast?”. Foi assim que tudo começou.

YouTube foi a ideia inicial do Gustavo, mas como nem eu e nem a Letícia ficávamos muito confortáveis com a ideia, daí o podcast foi um meio do caminho que todo mundo estava confortável e feliz.

Continuamos conversando desenvolvemos a ideia do podcast e fizemos o primeiro episódio o ano retrasado (2017). E aí meio que tipo gostamos de fazer, as pessoas que ouviram gostaram e super incentivaram que continuássemos.

Bem isso que é o pizza, um lugar onde gente compartilha o conteúdo sobre ciência de dados desde coisas que estamos estudando pro nosso trabalho a coisas que sentamos para estudar para fazer o podcast… e como somos três e área de ciência de dados é gigante, também convidamos pessoas para vir falar no podcast sobre aquilo que elas são especialistas.

Quais são as habilidades que uma pessoa que trabalha nessa área busca ter? Matemática, estatística, física, são pontos fortes?

Então, parto do princípio que toda habilidade que você tiver vai te ajudar de alguma forma, principalmente porque não existe formação de cientista de dados em faculdade hoje, no máximo o que se ouve falar são de especializações (pós-graduação).

O que uma pessoa que busca trabalhar na área precisa saber é uma boa base estatística, porque isso vai te ajudar, por exemplo, a fazer testes (de hipótese e a/b) e também a entender fundamentalmente quais modelos você deve rodar com os seus dados.

Além disso, se você souber uma linguagem de programação (R, Python, Júlia, Scala) isso vai te ajudar muito, pois vai te dar uma independência independente do cenário de dados que você se encontrar. A cereja do bolo é: primordial saber apresentar algo de CdD (Ciência de dados) para quem não é da área.

As ferramentas a seu favor são coisas de visualização e principalmente a sua língua, porque saber como explicar algo complexo para algo que alguém sem conhecimento técnico (ou de níveis técnicos variados) vai ser parte do seu trabalho.

Quais são os principais desafios da área?

Jessica apresentando o Serenata de Amor. https://serenata.ai

Formação é uma delas, como falei não existe faculdade que te forme em ciência de dados, decorrente disso como “será que o certificado do cursinho online é o suficiente?”. Mais relacionado ao trabalho em si:

A escolha da ferramenta correta, é um dilema constante, de qual linguagem usar, vale a pena pagar uma solução pronta ou é melhor construir a nossa? Esse tipo de coisa atrapalha no começo do processo de estudo dos dados. Nesse aspecto se falta experiência vale fazer pequenas provas de conceito (se possível) com mais de uma ferramenta e analisar qual foi a melhor.
Dados ruins, porque sim existe dado ruim. Muitas empresas que estão vindo pro mundo dos dados muitas vezes tem dados, mas por não terem nascido já nesse contexto, esses dados podem estar armazenados de forma que dificulta o trabalho do cientista, ou podem ter uma granularidade ruim, ou até mesmo não ser o dado ideal para responder a pergunta/resolver o problema que se está sendo proposto.
Lidar com viés invisível (aquele que existe e você não se dá conta), às vezes nosso dado traz um viés para nossa análise que demoramos para notar, por isso é muito importante sempre estar atenta aos resultados encontrados e validar esses resultados, por exemplo, nos EUA teve um caso muito bom para exemplificar isso que é conhecido como Redlining, tipo subir o preço de seguro para determinadas localidades por causa da população que vive ali, esse tipo de viés aparecia em modelos preditivos de seguro, por causa do histórico daquela região que não tinha seguro ou acesso a bancos, ou o que fosse. (o nome redlining se refere que se pegasse um mapa dava para desenhar com uma linha vermelha exatamente onde delimitava essas áreas) esse tipo de viés era trazido invisivelmente para o modelo pelo conjunto dos CEP.

Nesse episódio do pizza falamos bastante de vies invisível. https://podcast.pizzadedados.com/e/episodio-014/

Revalidação de modelo, é necessário acompanhar modelos de aprendizado uma vez que eles estão “prontos”, pois, como o próprio nome diz, os modelos aprendem e vão evoluindo com o tempo e com os novos dados que vão recebendo então é importante de tempos em tempos checar as métricas do modelo para garantir que eles estão funcionando conforme esperado.
Levando pro lado do negócio a falta de resultado no sentido que às vezes uma resposta para uma análise exploratória pode ser que não da para validar a hipótese ou implementar o modelo que galera de negócios, ou mais acima na hierarquia estão esperando, e muitas vezes a empresa não estão preparada para isso.

Esses são, na minha opinião os problemas mais comuns, existem muitos outros, mas esses são aqueles que valem a pena ter em mente sempre.

Quais são as principais recompensas da área?

Bem, é uma área muito ampla, você pode trabalhar com problemas sociais, biológicos, econômicos, data for good, basicamente qualquer área pode se beneficiar de ciência de dados, para quem trabalha com isso é ótimo, pois você pode procurar a área que mais te agrada e trabalhar com uma problemática que você goste.

Da para trabalhar remoto sim, como toda área de ti, mas em alguns casos você pode precisar estar alocado por causa dos protocolos de segurança, imagine que, por exemplo, a galera do banco central não vai deixar você sair com um pendrive cheio de dado bancário do país.

De modo geral também pode ser financeiramente atrativo, principalmente se você atinge certa senioridade, é difícil contratar cientistas de dados porque casar um bom fit com a filosofia da empresa, mais um conjunto amplo e profundo de conhecimento é relativamente complicado o que torna o mercado da área extremamente interessante financeiramente, principalmente se considerar empresas que são de fora do país.

Toda a comunidade de ciencia de dados estar crescendo o que a torna muito ativa, principalmente aqueles núcleos construídos em volta de linguagens de programação e ferramentas específicas.

Por que alguém deveria se tornar um(a) Cientista de dados?

Se você ama tomar decisões embasadas em informação ou se você gosta tentar encontrar sentido em algo que ao primeiro olhar não parece fazer sentido algum, ou até mesmo se você gosta de aprender coisas novas você provavelmente vai querer ser cientista de dados.

Para mim, foi uma mistura de todas essas coisas, amo passar horas tentando entender o sentido das coisas e ver os dados responderem às perguntas que temos. É muito recompensador. Às vezes não é fácil, mas vale a pena.

Se você gostou desse post não esquece de dar um like e compartilhar 😄

Se quiser saber o que ando fazendo por ai ou tirar alguma dúvida fique a vontade para me procurar nas redes sociais como @malaquiasdev.

Para ler mais post meus acesse MalaquiasDEV | A Vida, o código e tudo mais.