Data & Decision Science Loft: nosso Chapter, em dados

Amanda Ferraboli
Loft
Published in
15 min readApr 20, 2021

Há um tempo nós cientistas de dados aqui na Loft pensamos em como seria legal entender e compartilhar quem somos: como nosso time é composto, perfil das pessoas, interesses, hábitos e preferências. Os objetivos dessa iniciativa são vários:

  • autoconhecimento do time e diversão
  • transparência para a comunidade sobre a características do nosso time
  • mais informações para pessoas que têm interesse em trabalhar na Loft e com Data Science
  • comprometimento com diversidade e inclusão

Dados são a matéria-prima de cientistas de dados — sem isso, não há mágica (também conhecida como matemática) que faça acontecer. Além disso, dados podem falar mais que mil palavras, e contar histórias bem interessantes. Já que somos cientistas de dados, por que não contar uma história sobre a gente usando exatamente o que está no nosso dia-a-dia?

Assim nasceu a ideia desse post: uma apresentação em dados sobre o time de ciência de dados da Loft!

É importante reforçar que o post não tem por objetivo criar um perfil padrão e restritivo sobre cientistas de dados. Pelo contrário: queremos tornar nosso time mais diverso. Nos engajamos em Diversidade & Inclusão e temos interesse em contratar pessoas que vão tornar essas distribuições mais equilibradas. Se tiver interesse em saber mais sobre como atuamos em inclusão, dá uma olhada nesse post. Também temos algumas vagas exclusivas abertas que buscam mais diversidade, inclusive em liderança, para nossa equipe.

Metodologia de Coleta de Dados

Pensamos coletivamente que tipo de informação teríamos interesse em descobrir e medir, e chegamos em quatro grandes clusters de temas: Formação e Desenvolvimento; Experiência Profissional; Diversidade e Diversão.

A partir disso, formulamos perguntas de múltipla escolha e dissertativas que compuseram um questionário. As pessoas do time foram convidadas a preencher o questionário anônimo e opcional de início ao fim: dentre as dezenas de perguntas, as pessoas tiveram a opção de responder apenas às que se sentiam confortáveis.

Em todo esse post, caracterizamos o time utilizando apenas dados coletados de pessoas que responderam a nossa pesquisa — isso pode ser um viés? Sim, pode. Mas tivemos alto nível de conversão do forms (~84%).

Vocês dizem que foi anônimo, mas não seria possível identificar as pessoas a partir de respostas específicas? Sim, seria. Mas não compartilhamos respostas individuais nem nesse post nem com o próprio time, mantendo assim apenas a visão do coletivo.

Quando as respostas já estavam consolidadas, fizemos uma dinâmica no time para as pessoas tentarem adivinhar as respostas. Foi um momento de bastante alegria e descontração!

Sem mais delongas, vamos conhecer o time de ciência de dados da Loft!

Formação e Desenvolvimento

Nesse primeiro bloco, investigamos um pouco sobre a formação educacional das pessoas e como fazem para dar continuidade ao desenvolvimento e atualização profissional.

Em termos de escolaridade, 61.9% das pessoas respondentes mencionaram envolvimento com pós-graduação stricto sensu — ou seja, mestrado — seja finalizado ou em andamento; 28.5% das pessoas possuem ensino superior completo como maior nível educacional; 4.8% ensino superior incompleto e 4.8% pós-graduação lato sensu. Com o gráfico “waffle” abaixo conseguimos ver as partes do todo em níveis de escolaridade. Não chegamos a coletar dados nesse nível de detalhe, mas temos a hipótese (a partir de observações pontuais) de que muitas pessoas começaram pós-graduação depois de entrar na Loft, visando uma forma mais estruturada de busca por excelência e conhecimento. Fica para a próxima pesquisa!

Sabemos que temos variedade de backgrounds e formações, mas nunca paramos para quantificar.

Com qual grande área — Exatas, Humanas e Biológicas — as pessoas identificam seus cursos de graduação? 80% das pessoas que responderam acham que seu curso está relacionado apenas a área de Exatas; 10% das pessoas identificam relação apenas com a área de Humanas; 5% das pessoas identificam relação de seu curso com Exatas e Humanas; e também 5% identificam relação do curso com Exatas e Biológicas. O diagrama de Venn abaixo ajuda a visualizar os resultados:

Se usarmos o diagrama de Venn ponderado, fica mais clara a proporção das grandes áreas:

Olhando no detalhe os cursos, temos pessoas das Engenharias (Mecânica, Elétrica, Computação), Estatística, Matemática Aplicada, Economia e até Relações Internacionais.

Mas é necessário ser de Exatas ou ter mestrado para ser cientista de dados na Loft? Absolutamente não! Em nenhuma de nossas vagas definimos critérios sobre formação e tentamos durante o nosso processo focar nas habilidades das pessoas candidatas, tentando avaliá-las a partir de cases com problemas reais da Loft. É importante ressaltar novamente que muitas pessoas iniciaram o contato com mestrado quando já estavam na Loft.

Ainda na sessão de formação e desenvolvimento, questionamos como as pessoas geralmente atualizam a sua formação e complementam seu desenvolvimento profissional. Começamos investigando quais as principais formas de conteúdos de ciência de dados que as pessoas consomem. O resultado pode ser observado na nuvem de palavras (WordCloud) abaixo. Posts de blogs foi a fonte mais citada (sendo citada por 95% das pessoas), seguida por livros, aulas e cursos online e artigos científicos. “Aulas e cursos presenciais” era uma opção, mas não recebeu nenhum voto — provavelmente um efeito da pandemia; mas também, felizmente, pela facilidade que temos hoje de encontrar bons conteúdos online sobre ciência de dados.

Além da forma de conteúdo, também nos interessava descobrir sobre os assuntos e temas mais populares, ou seja, o que as pessoas mais estavam estudando. Consolidamos as respostas qualitativas e agrupamos por temas semelhantes — por exemplo, programação e software engineering ficaram ambas dentro do grupo “Desenvolvimento/Programação”.

Abaixo, nosso pódio de assuntos mais estudados!

Tivemos três assuntos empatados com duas menções, foram eles: Recomendação, Álgebra linear e Análise de sobrevivência. Análise de sobrevivência é provavelmente um tema perene de estudos, pois temos a nossa biblioteca xgbse (XGBoost Survival Embeddings) aberta para a comunidade e em constante aprimoramento. Em segundo lugar, com quatro menções, apareceu Desenvolvimento/Programação. E o nosso assunto campeão de interesse nos últimos meses foi Inferência Causal. Surpreendente? Aqui na Loft temos um grande grupo de estudos no Chapter de Data Science dedicado a estudar inferência causal, já que boa parte do nosso trabalho envolve planejar, executar e medir efeitos de intervenções na nossa plataforma.

Experiência

A segunda grande sessão de perguntas foi direcionada a entender mais sobre a experiência de trabalho de cientistas da Loft.

Primeiramente, qual o tempo de experiência das pessoas trabalhando com dados e disciplinas quantitativas. O panorama geral dessa pergunta pode ser visualizado no gráfico waffle abaixo.

24% das pessoas respondentes trabalha com dados faz 1–2 anos; 38% trabalham com dados há 3–4 anos e também 38% trabalham com dados há mais de 5 anos. Vale comentar que temos vários casos de sucesso de primeiro emprego na Loft (inclusive começando como pessoas estagiárias)!

Em seguida, investigamos o tempo de trabalho na Loft. A Loft tem pouco mais de dois anos de existência, por isso mudamos a granularidade de contagem para meses. Os resultados também foram consolidados num gráfico waffle, que pode ser conferido abaixo.

45% das pessoas respondentes afirmaram estar trabalhando na Loft há menos de 12 meses (1 ano); 35% das pessoas ficaram com a opção entre 12 e 18 meses (1 ano a 1 ano e meio) e uma parcela menor, de 20%, respondeu que está na Loft entre 18 até 24 meses (1 ano e meio e dois anos). Nenhuma pessoa assinalou a opção de mais de dois anos trabalhando na Loft.

Em termos de experiência, além da dimensão de tempo, também resolvemos explorar a diversificação de experiências de cientistas da Loft em termos de indústria — ou seja, nicho de atuação econômica de empresas e instituições. Abaixo podemos ver as indústrias citadas ordenadas pelo número de menções.

Tivemos um total de 42 menções para 17 tipos de indústria. Houve nove menções à indústria financeira, seis menções a varejo, quatro menções à mídia e entretenimento, e também quatro à indústria de saúde. Você tem experiência em uma área diferente e acha que pode complementar nossa equipe? Vem falar com a gente!

Diversidade

A terceira sessão do questionário buscou captar um panorama sobre diversidade no time.

As primeiras três perguntas buscavam identificar se a pessoa respondente se declarava parte de grupos menos representativos nas áreas de tecnologia: pessoas não-brancas, pessoas que se identificam com o gênero feminino e pessoas LGBTQIAP+.

Os resultados foram ilustrados no gráfico de barras abaixo.

Essas porcentagens são independentes, no sentido em que medem apenas a diversidade do grupo destacado. Se uma pessoa se identifica como não-branca e como LGBTQIAP+, está sendo considerada duas vezes nas estatísticas acima. Ou seja, a somatória das porcentagens dos grupos (57%) não necessariamente representa a realidade da proporção de pessoas diversas que temos na equipe. Optamos por mostrar a quebra entre grupos, para dar mais transparência sobre representatividade de cada comunidade.

Considerando a interseccionalidade dos grupos de diversidade citados acima, a porcentagem de pessoas diversas na equipe de Dados da Loft é 38%. Isso significa que para cada pessoa diversa há 1.63 pessoas não diversas. Não há pessoas que se identificam como pessoas com deficiência ou como pessoas neurodiversas na equipe.

Buscando maior equidade e paridade nas estatísticas mostradas acima, e continuando na nossa jornada constante de nos tornarmos uma empresa mais inclusiva, abrimos vagas com exclusividade para pessoas que se identificam com o gênero feminino e/ou como parte da população negra. A primeira (público feminino), além de contribuir com a diversidade do nosso Chapter, foi focada em ajudar no objetivo da Loft atingir paridade de gênero até o fim de 2021; a segunda (população negra), sendo um subconjunto da população não-branca, tinha menor representatividade e foi elencada como prioritária. Mas, como falei, a jornada é constante, pois sempre há aspectos a serem considerados dada a vasta diversidade de seres humanos, e por isso o caminho para diversidade e inclusão é acima de tudo um hábito, e nenhuma empresa estará sempre adequada 100% a todas as diversidades.

Mensuramos também a diversidade de origem de cientistas da Loft — ou seja, local de nascimento por região do Brasil e outros países.

No mapa, observamos uma concentração na região Sudeste do país — a maioria das pessoas do time nasceu nos estados de São Paulo ou Rio de Janeiro. Mas temos representantes de todas as regiões, exceto da região Norte do Brasil. Também há pessoas estrangeiras no time, por mais que já sejam brasileiras de coração!

Mais do que olhar apenas para região ou país, também tivemos a curiosidade de questionar sobre nascimento em capital ou interior (de estado ou país). A animação abaixo mostra a proporção encontrada.

60% das pessoas respondentes afirmaram terem nascido em uma capital, enquanto 40% afirmaram que sua origem de nascimento foi em um município do interior de estado/país. Mesmo com uma concentração regional grande, observamos que a proporção capital/interior é mais equilibrada, favorecendo a diversidade de contextos entre cientistas do nosso time.

A última dimensão de diversidade que analisamos foi a faixa etária do time. Descobrimos que a idade média no momento do formulário era de 28.04 anos, bastante próxima da mediana em torno de 28 anos também. As modas da distribuição foram duas: 26 e 29 anos. A idade mínima era de 20 anos e a máxima, 36 anos. Apesar de não cobrir toda a distribuição de idades, é interessante notar que nosso time conta com pessoas de gerações diferentes, certamente valioso em termos de experiências e formas de enxergar o mundo. Já atuamos pontualmente nesse aspecto, e temos no nosso roadmap consolidar estratégias sobre isso no futuro!

Diversão

A última sessão foi responsável por fomentar ainda mais a alegria (e polêmica) de quem estava preenchendo o questionário: perguntas essenciais e super relevantes para a integração e, acima de tudo, diversão do time!

Começamos com a clássica — qual sua linguagem de programação favorita? Vale destacar que na pergunta não entramos no detalhe sobre performance, completude ou características específicas das linguagens, deixamos o julgamento livre para as pessoas respondentes.

Em termos de resultados, ficamos com o esperado para quem trabalha com Data Science: a maioria mencionou Python ou R. Mas também tivemos menções a paradigmas diferentes — a linguagem funcional Haskell conseguiu conquistar o terceiro lugar entre as linguagens citadas.

Em seguida, passamos por um clássico brasileiro de discórdia: coxinha se come pela base ou pela ponta? Apesar de ser um embate clássico, nosso time demonstrou preferência clara por uma das opções…

No gráfico de circular packing acima, vemos que 52.4% das pessoas afirmaram que coxinha se come pela Ponta; a performance da opção “Base”, foi inclusive pior que a opção do “Tanto faz”, com respectivamente 14.3% e 19% dos votos. Foi uma pergunta muito rica para descobrirmos novas perspectivas e re-validar hipóteses que já havíamos assumido de cara. Descobrimos que algumas pessoas preferem começar a comer coxinha pelo lado. E ainda mais chocante, descobrimos que existem haters de coxinhas, ou seja, pessoas que não gostam dessa iguaria brasileira.

A próxima investigação é outro clássico da discórdia brasileira — o certo é biscoito ou bolacha? A animação abaixo foi feita utilizando cutecharts.

Podemos ver que a grande maioria votou em “Bolacha” (71.4%), mas como cientistas de dados responsáveis, destacamos a proximidade desse resultado com o mapa de origem de nascimento — grande parte das pessoas respondentes é de São Paulo, por isso, julgam que o correto seria “Bolacha”. É o correto, mesmo. Vamos pra próxima pergunta! Brincadeiras à parte, reconhecemos a diversidade linguística do Brasil e nos divertimos muito com isso, inclusive.

A próxima descoberta está relacionada ao que fazem as pessoas que são cientistas de dados na Loft quando não estão exercitando sua ciência na Loft — ou seja, que hobbies temos no nosso time? O Wordcloud abaixo consolida os resultados. Fizemos uma consolidação e normalização das respostas dissertativas para chegar em uma lista de hobbies e suas respectivas frequências. Além disso, também agrupamos os hobbies por natureza: artísticos, esportivos, intelectuais e de entretenimento. Antes de conferir o resultado, qual o seu chute sobre a atividade que apareceu com mais frequência?

Conseguimos identificar muitos hobbies interessantes e certamente depois da pandemia muitos rolês poderão ser marcados — jogos e exercícios ao ar livre, sessões de cinema, maratona de série, happy hours, prática de idiomas, e até uma sessão de fotos.

Já descobriu qual foi o hobby mais citado? Tivemos “Leitura” em primeiro lugar, com oito menções, seguida de “Videogame” com sete.

Criatividade muitas vezes é um elemento essencial na diversão. Buscando explorar um pouco essa dimensão, resolvemos questionar qual seria a melhor desculpa para chegar com atraso em uma reunião virtual. Em tempos de pandemia, temos o privilégio e a flexibilidade de poder trabalhar de casa, isso é excelente, mas muitas pessoas precisaram se adaptar em diversos aspectos, desde companhia de pets e crianças, até mudança na rotina e problemas técnicos com tecnologia.

O gráfico abaixo consolida as respostas em um gráfico de circular packing com hierarquias — agrupamos as desculpas em quatro grande temáticas: Bugs, ou problemas técnicos com equipamentos e tecnologia; Alta probabilidade, ou aqueles acontecimentos tão comuns quanto um eclipse solar; Prioridades sinceras, por que às vezes o cafezinho é realmente a maior prioridade; e Distorção de tempo, ou incidentes relacionados à percepção da passagem de tempo.

Falando em cafezinho e voltando ao tema comida, exploramos outra dicotomia interessante: as pessoas preferem café, chá ou toddynho? A visualização abaixo traz as porcentagens de preferências e, inclusive, algumas opções de preferências a mais. Você quer dar um palpite sobre qual o relacionamento das porcentagens e as opções? Retiramos a legenda pra você tentar!

E a proporção de respostas foi…

O café é realmente o campeão de preferência na categoria de bebidas para café da manhã ou pro lanche da tarde (ou a qualquer momento mesmo!). Mas tivemos pessoas que preferem o chá, pessoas que gostam mais de Toddynho e pessoas que preferem Suco ou Nescau em relação às opções que oferecemos inicialmente.

Já falamos um pouco sobre os desafios do trabalho remoto, e por isso desenvolvemos a curiosidade em investigar o modo de trabalho preferido das pessoas do Chapter de Data Science, considerando quando a pandemia passar, já que hoje todas as pessoas estão trabalhando 100% do tempo de casa. Na Loft temos o benefício do FL@W (Freedom Living @ Work) que permite a cada pessoa a flexibilidade de escolha entre trabalho full-remoto, ou seja, 100% do tempo trabalhando fora do escritório, trabalho presencial todos os dias no escritório ou trabalho flex, com 2–3 idas semanais ao escritório. Graças ao FL@W, pudemos não só gerar a pergunta de preferências e essa curiosa visualização em Venn abaixo, como também teremos meios para tornar essas preferências uma realidade pós-pandemia!

62% das pessoas afirmaram serem adeptas à modalidade de trabalho Flex — essas, provavelmente gostam do ambiente de escritório mas também não abrem mão de passar mais tempo com pessoas queridas e pets; 29% das pessoas gostariam de trabalhar apenas remotamente — essas pessoas devem adorar o conforto de casa e ter uma produtividade e concentração maior se puderem trabalhar de um local mais tranquilo, e 9% das pessoas gostariam de trabalhar apenas presencialmente do escritório — essas, provavelmente estão muito interessadas nos lanchinhos e cafés gratuitos que o escritório da Loft oferece.

Brincadeiras à parte, muitas funções demandam que a interação entre pessoas seja mais ágil e dinâmica, e o ambiente de escritório com certeza favorece isso, além da possibilidade de mais network.

Leitura foi o hobby mais citado entre cientistas de dados da Loft. Parecia que já estávamos prevendo esse resultado e demos um passo adiante, incluindo uma questão aberta em nosso questionário — qual o seu livro preferido? Hora de atualizar as recomendações de leituras! Os resultados podem ser visualizados no WordCloud com máscara de livro abaixo. Nenhum livro foi citado por mais de uma pessoa respondente, por isso a proporção de todos os títulos é a mesma. Há tanto obras em português como em inglês.

No dia em que fizermos o próximo evento de integração do Chapter de DS, será que conseguiremos chegar em um consenso sobre a trilha sonora? Uma playlist com estilo musical que agradaria a maioria? Essa situação pode ser uma das aplicações para os achados relacionados à próxima pergunta — qual o seu estilo musical favorito?

As pessoas puderam eleger um ou mais estilos musicais favoritos. Mantivemos sub-gêneros musicais em grupos separados para preservar a preferência específica das pessoas, por exemplo, no caso de Indie, Indie Rock e Indie Pop. O gráfico radar (também conhecido como spider ou polar) abaixo ilustra os resultados.

Tivemos menções a treze estilos musicais diferentes, com destaque para Rock, que recebeu três menções, e Jazz, Indie Rock, Indie Pop e Pop que receberam duas menções cada. Já percebemos que a playlist coletiva do time será bastante eclética!

As descobertas estavam excelentes, mas infelizmente chegamos ao fim!

Todas as visualizações foram geradas usando Python. O código pode ser encontrado no Github.

Se você gostou desse artigo, se tiver alguma dúvida sobre o que foi mostrado ou outras curiosidades, deixa um comentário que teremos enorme prazer em responder!

E se você tiver interesse em conhecer mais sobre o trabalho do time, aproveita pra dar uma lida nos nossos outros posts aqui no Medium!

Faz parte do seu jeito transformar/construir um ambiente mais inclusivo? Então confira nossas oportunidades

#TransformeComAGente #OJeitoLoft.

Referências:

https://www.python-graph-gallery.com/

https://datavizproject.com/#

https://towardsdatascience.com/basics-of-gifs-with-pythons-matplotlib-54dd544b6f30

https://github.com/gyli/PyWaffle

https://github.com/marcosacj/datacides/blob/master/notebook/2019-05-26-macj-visualizing-folium.ipynb

https://github.com/cutecharts/cutecharts.py

https://github.com/amueller/word_cloud

--

--