Não foque em ciência de dados, mas na resolução de problemas do negócio

Afinal, ciência de dados não é sobre algoritmos, habilidades técnicas avançadas ou diplomas especializados — ciência de dados é, basicamente, resolver problemas.

Tera
Somos Tera
8 min readAug 17, 2020

--

(Adaptação do artigo originalmente publicado aqui, em inglês) Traduzido por Thabata

O termo “cientista de dados” se tornou uma expressão coloquial na linguagem empresarial moderna.

Usamos essas palavras quando tentamos definir o cargo de uma pessoa que, teoricamente, deve possuir todas (ou quase todas) as habilidades relacionadas a dados.

Na realidade, as organizações que desejam contratar cientistas de dados procuram por “unicórnios” — profissionais tão profundamente habilidosos que chegam a não ser reais.

O Diagrama de Venn de Data Science (popularizado pelo cientista de dados Drew Conway) ajuda a visualizar esse amplo conjunto de habilidades:

(“A) ‘habilidades de hacking’ em vermelho, B) ‘expertise substantiva’ em azul, e C) ‘conhecimentos em matemática e estatística’ em verde. Na interseção de A e B temos a área roxa, denominada de ‘área perigosa’; entre A e C está o ‘Machine Learning’ e entre B e C está o ‘skill de pesquisa tradicional’. Na interseção dos três círculos está o ‘Data Science’”).

Quando a maioria das pessoas olha para este diagrama, elas pensam instantaneamente que o esquema define um “cientista de dados”.

Como qualquer pessoa que se autodenomina cientista de dados, ela deve ser especialista em hacking, matemática e estatística, e ainda ter especialização substantiva no campo em que trabalha.

Na prática, são poucos os indivíduos que são verdadeiramente especialistas em todas as três áreas (e eles provavelmente estão distantes de nós. Se você for um verdadeiro ou verdadeira especialista em todos os três, provavelmente está trabalhando no Google, Microsoft ou Facebook).

O diagrama nunca foi concebido para definir um cientista de dados (a pessoa), mas em vez disso, define a ciência de dados (o campo, a área em si).

Para ser um(a) cientista de dados, é necessário ser excepcional em pelo menos uma ou duas das categorias e ter conhecimento suficiente nas outras para realizar qualquer que seja o objetivo determinado.

E algumas empresas estão superando o desafio de encontrar bons cientistas de dados ajustando suas ofertas de empregos, tornando-as mais adequadas.

O Airbnb, que emprega uma das equipes de Data Science mais maduras do mundo, recentemente dividiu suas equipes de Data Science em três áreas (Analytics, Algorithms e Inference) para comunicar e estruturar o valor das áreas com mais eficácia.

Muitas empresas agora listam o título de trabalho “Machine Learning Engineer” ou “Research Scientist” para enfatizar a disparidade de funções em todo o continuum da definição de cargos em ciência de dados.

Mas, embora estejamos cada vez melhores nessa definição e na segmentação de seus muitos subdomínios em cargos, funções e tarefas, ainda estamos atrasados no processo.

Afinal, ciência de dados não é sobre algoritmos, habilidades técnicas avançadas ou diplomas especializados — ciência de dados é, basicamente, resolver problemas.

Assar o pão vs. construir o forno

As organizações estão mais preocupadas com a complexidade acadêmica e técnica de suas equipes de ciência de dados do que com o valor que elas agregam aos negócios.

Na verdade, eu apostaria que 2 em cada 3 de vocês que lerem essa postagem podem pensar em um projeto de Data Science em sua empresa que tenha um investimento significativo, mas que ainda não mostrou valor para o negócio.

Por que isso acontece?

As empresas querem o pão fresco, mas estão contratando engenheiras elétricas em vez de padeiras.

Cassie Kozyerkov, engenheira chefe de inteligência de decisão do Google, explica a analogia:

“Imagine que você quer um pão, e, para isso, você contrata uma chef para construir um forno para você ou um engenheiro elétrico para fazer o pão para você. Quando se trata de Machine Learning, esse é o tipo de erro que vejo as empresas cometendo continuamente.

Se você estiver abrindo uma padaria, é uma ótima ideia contratar um padeiro experiente, versado nas nuances de fazer pães e doces deliciosos. Você também quer um forno, com certeza. Mas embora essa seja uma ferramenta crítica, aposto que você não colocaria como tarefa para a sua chefe de confeitaria construir aquele forno.

Então, por que sua empresa está fazendo o equivalente em Machine Learning?

Você está fazendo pão? Ou está fazendo fornos?”.

A Sra. Kozerkov continua explicando que o motivo pelo qual as empresas falham com tanta frequência no Machine Learning é devido a uma compreensão insuficiente de pesquisa versus aplicação, ou seja, construir o forno versus o assar pão.

Especialistas em pesquisa com diplomas altamente especializados podem ser incrivelmente valiosos na situação certa (por exemplo, se seu negócio ou produto for o algoritmo), no entanto, a maioria das empresas não precisa deles.

O que as empresas precisam é de um “padeiro” — alguém que possa “assar pão”, colocar a mão na massa, vendê-lo e distribuí-lo de forma eficaz usando a cozinha que já foi construída em algum outro lugar.

Se você gerencia uma equipe e deseja contratar o especialista em pesquisa, vá em frente, mas certifique-se de colocá-lo em contato com alguém que possa realmente resolver o seu problema.

Caso contrário, não reclame quando não estiver obtendo o valor que esperava.

Se você está dizendo a si mesmo: “preciso de alguém que seja um ótimo padeiro e, ao mesmo tempo, um excelente engenheiro”, boa sorte. Embora essas pessoas existam (imagino que existam algumas!), elas provavelmente estão ganhando mais do que você, trabalhando no Google ou no Facebook.

Em vez de caçar o “unicórnio”, monte uma equipe especialmente desenhada para os problemas específicos do seu negócio.

E se você está atualmente em uma função de ciência de dados, se pergunte: quais desafios sua empresa enfrenta? Você entende esses desafios extremamente bem? Você pode medir claramente o valor comercial dos projetos em que está trabalhando?

Para aspirantes a cientistas de dados, ficam outras questões — em quais tipos de problemas você está interessado ou interessada? De qual área? Antes de se aprofundar em um curso de tecnologia ou em um doutorado, você sabe quais são os problemas que gostaria de resolver?

Você quer construir fornos ou finalmente assar o pão?

Você não precisa de IA

Ao contrário da crença popular, a IA não é uma bala mágica.

Na reportagem de capa da Harvard Business Review de julho de 2017, o chefe de IA do Facebook de The Business of Artificial Intelligence, Joaquin Candela (falando sobre aqueles “unicórnios”) expressa suas frustrações:

“O que me frustra”, diz ele, “é que todo mundo sabe o que é um estatístico e o que um analista de dados pode fazer. Se eu quiser saber: ‘ei, qual o segmento de idade que se comporta dessa ou daquela maneira?’, eu chamo o analista de dados”.

Ele continua: “(…) então, quando as pessoas pulam essa etapa e vêm até mim e dizem: ‘me dê um algoritmo de Machine Learning que fará o que nós fazemos hoje’, eu fico tipo: ‘como assim? Que problema você está tentando resolver? Qual é o seu objetivo? Quais são as compensações desse processo?’. Às vezes, as pessoas se surpreendem com a existência de compensações! E se o indivíduo não tem respostas para essas perguntas, eu fico pensando: ‘que diabos você pensa que é IA?’”.

“Eles pensam que tudo funciona como um passe de mágica”, Candela completa. “Mas não é assim que nada acontece. Esse é o momento em que digo às pessoas: ‘você não precisa de Machine Learning. Você precisa montar uma equipe de ciência de dados que o ajude a pensar em um problema e aplicar testes para solucionar esse problema. Sente-se com sua equipe. Observe seus dados. Se você não consegue nem saber o que está acontecendo, se não tem intuição, se não sabe construir um sistema muito simples e baseado em regras (por exemplo, se uma pessoa tem menos de 20 anos e vive nesta geografia, vamos fazer isso), então fico receoso até de falar sobre IA na cara do seu problema’”.

Os insights de Candela são incrivelmente pungentes em nossa obsessão atual com todas as coisas de IA e ML.

A dura verdade é esta: você provavelmente não precisa de IA — pelo menos não ainda. Antes de pensar em Machine Learning para impactar seus negócios, você precisa ter um problema muito específico e bem definido.

Na minha experiência pessoal, a maioria das empresas não definiu o problema bem o suficiente para sequer aplicar um conjunto de regras simples a ele.

Como o Sr. Candela afirma enfaticamente: se você ainda não chegou nesse ponto, como podemos começar a discutir sobre alguma aplicação de IA?

Simplesmente não podemos.

Tire o foco da ciência de dados e defina os problemas do negócio

Esqueça a ciência de dados por um minuto e faça um esforço concentrado para desvendar problemas e fazer planos sobre como resolvê-los.

Se você fizer isso, algo engraçado acontecerá: a tecnologia/algoritmo/ou a técnica que você precisa aplicar se tornará aparente.

Você se tornará mesmo um especialista ou uma especialista nisso porque não estará apenas hackeando ou calculando, estará resolvendo um problema real e prático.

Aqui estão algumas sugestões para cientistas de dados ou membros das equipes de análise para aplicar essa ideia de forma mais completa:

  1. Torne-se um(a) cientista do negócio. Gaste um pouco menos de tempo aprendendo novos algoritmos e pacotes Python e mais tempo aprendendo as alavancas que fazem seu negócio específico subir ou descer (e as variáveis ​​que impactam essas alavancas). Identifique as fontes de dados que contribuem para essas variáveis ​​ — geralmente, na interseção, você encontrará oportunidades de alto valor.
  2. Seja implacável ao priorizar e aceitar projetos. Antes de avançar em um projeto, avalie A) a ação que será realizada e B) o valor comercial que será criado com base nessa ação. Se a ação não for clara e o valor não for alto, não perca tempo. Nota: Data Science NÃO é Business Intelligence, BI é uma importante função de TI que mantém a integridade das fontes de dados e painéis. Seu trabalho como cientista de dados é resolver os problemas do negócio.
  3. Não espere que as partes interessadas sempre (ou alguma vez) sejam capazes de definir o problema. Em minha opinião, esta é a habilidade número um mais importante para um(a) cientista de dados acima de qualquer conhecimento técnico: a capacidade de avaliar e definir claramente um problema. A maioria das partes interessadas tem problemas, mas não pensou sobre eles por tempo suficiente para ser capaz de definir o processo por trás deles. Este é o momento em que você vai dominar o Machine Learning e a IA, trazendo-os para a sua organização. Decifre as necessidades do negócio em etapas onde a ciência de dados pode ser aplicada de forma eficaz.
  4. Torne-se parte do negócio. E, sob nenhuma circunstância, fique isolado ou isolada. Envolva-se de forma proativa com a unidade de negócios como um(a) parceiro(a), e não como um mero “suporte”.

É isso. Boa sorte na resolução de problemas!

--

--

Tera
Somos Tera

Um novo modelo de educação com foco nas principais habilidades para a economia digital: www.somostera.com