Entre as Ciências Sociais e a Ciência de Dados: diálogos, desafios e transição de carreira — a experiência de Natalia Block

Maria Júlia
Data Girls
Published in
14 min readNov 29, 2021
unsplash

Natalia Block (@nataliamblock no Twitter) é uma cientista de dados e analista de pesquisa, com doutorado em Ciência Política e Governo pelo Instituto de Estudos Sociais e Políticos da Universidade Estadual do Rio de Janeiro (IESP-UERJ). Conheci o trabalho da Natalia por meio de suas publicações no Medium. Com textos super objetivos e muito bem-escritos, ela desmembra potencialidades e dificuldades de ser cientista social e uma cientista de dados. Em “Dados e Inteligência Artificial: um mundo de possibilidades para cientistas sociais” e “Ciência de Dados para Cientistas Sociais: uma introdução”, encontrei o que tenho escutado desde o início da minha própria graduação em ciências sociais, em 2016: há um profícuo campo de atuação para nós, com formação em humanidades, em áreas tecnológicas.

Natalia possui treinamento em Monitoramento de Mídias Sociais pelo IBPAD; em Big Data Analytics com R e Microsoft Azure Machine Learning, Python Fundamentos para Análise de Dados, Big Data Real-Time Analytics com Python e Spark e Engenharia de Dados com Hadoop e Spark, todos pela Data Science Academy, além de ser instrutora de dados certificada pela organização americana The Carpentries. Todas essas informações estão disponíveis no LinkedIn da Natalia, por onde fiz um primeiro contato apresentando o Data Girls e a minha intenção de entrevistá-la para o Medium do grupo.

O link entre essas áreas não ocorre necessariamente de forma natural — ora, nós cientistas sociais precisamos desnaturalizar tudo, não tem jeito. Para pessoas provenientes das humanidades, é preciso esforço para adentrar as exatas e tecnológicas. Por outro lado, cientistas de dados e de outros campos, seja das exatas ou das biológicas, também penam um bocado quando pretendem se aventurar na antropologia, na sociologia ou na ciência política.

Por conta da minha curiosidade em relação à esse processo de espraiamento para áreas supostamente antagônicas, surgiram as perguntas da entrevista. Da generosa disponibilidade da Natalia em compartilhar suas experiências, surgiram suas respostas. Se num primeiro momento de trabalho para o Data Girls, procurei introduzir breves reflexões sobre a relação entre ciências sociais e tecnologia, com essa entrevista pretendo demonstrar de forma prática, tomando emprestada a trajetória profissional de Natalia, as possibilidades e dificuldades dessa relação — tocando também num ponto que considero central para a relação entre gênero e tecnologia: a síndrome de impostora.

Aqui, a tarefa de apresentar o que gostaria de aprender e demonstrar para as pessoas que consomem o conteúdo do Data Girls, não está limitada pelos 1.300 caracteres do Instagram. Compartilhando experiências mais densas, espero que possamos aprender mais, todes juntes, sobre uma ciência historicamente ainda jovem, filha da modernidade, que seja, as ciências sociais, e uma ainda mais nova, filha do que alguns chamam de pós-modernidade, a ciência de dados. Espero que gostem! Com a palavra, Natalia Block.

MJ: Você poderia nos contar um pouco sobre sua trajetória acadêmica e profissional até o momento? Durante este processo, como conheceu o campo da ciência de dados?

N: Meu interesse pela ciência de dados surgiu ao longo da minha trajetória profissional, trabalhando como cientista política. Enquanto estava fazendo minha graduação em Relações Internacionais, logo percebi que tinha vontade de seguir carreira acadêmica. Sempre gostei muito de estudar e da ideia de fazer pesquisa — a pesquisa sendo um estudo diferente do que fazemos na graduação, para além de ler textos e responder perguntas numa prova. Gostava da coisa investigativa de fazer pesquisa, de ter uma pergunta que não foi solucionada, correr atrás de respondê-la. Logo depois da graduação entrei no mestrado, no Instituto Universitário de Pesquisa do Rio de Janeiro, que na época fazia parte da Universidade Cândido Mendes. Em minha pesquisa no mestrado, debati métodos de classificação de partidos políticos, e percebi que tinha muito interesse em estudar métodos, não só qualitativos, mas quantitativos também. Continuei o doutorado no IESP-Uerj e comecei a me interessar pelos métodos quantitativos, apesar de ter realizado um estudo organizacional sobre o Partido do Movimento Democrático Brasileiro (PMDB) que também demandou pesquisa qualitativa — entrevistas com políticos do partido, viagens à Brasília para fazer análise documental e estudo etnográfico sobre como as coisas aconteciam na presidência. Fiz diversos testes estatísticos para entender como o partido começou a crescer eleitoralmente e o quanto ele ganhava fazendo parte do governo, tendo em vista as emendas orçamentárias.

Após o doutorado, a ideia era continuar a carreira acadêmica. Comecei um pós-doutorado e fazia muitos estudos eleitorais, utilizando análise geoespacial. Por isso, fui fazer pesquisa durante campanhas e estive um período na Diretoria de Análise de Políticas Públicas da FGV, quando comecei a ter contato com o que se entende como big data. Eles coletavam muitos dados de Twitter para visualização por categorias de políticas públicas — saúde, segurança, educação etc. Havia um linguista que tentava entender como as pessoas se reportavam no Twitter sobre esses diferentes temas de políticas públicas. A partir da classificação que ele fazia, o pessoal técnico da ciência de dados, rodava uma busca no Twitter.

Depois de experiências trabalhando muito com estatística, principalmente eleitoral, com dados de redes sociais, como analista de ciência política — em períodos de campanha eu e meus colegas desenvolvíamos muito material para artigo de jornal –, comecei a sentir um incômodo com o fato de que os dados chegavam até mim, mas eu não sabia como eles eram coletados. Às vezes recebia grafos para interpretar o contexto político e me perguntava sobre sua coleta e organização. Não só não reportavam os dados de uma forma que um/a cientista social poderia entender, como eu também não sabia fazer as perguntas certas. Durante meu pós-doutorado, me esforcei em aprender a coletar dados com programação, apesar da existência de plataformas como a Stilingue[1], de coleta automática. Foi algo ousado da minha parte, porque não tinha a infraestrutura, não tinha nem ideia do que eu precisava. Comecei a estudar R, porque cansei de pagar o Stata, o software que usei para minha tese, também havia estudado bastante estatística na minha pós-graduação, tanto no mestrado quanto no doutorado. Aprendi fazendo alguns projetinhos coletando dados do Twitter, entendi os limites, como fazer os grafos. Fiquei curiosa, passei a estudar o que era ciência de dados, machine learning, e resolvi me inscrever em cursos de formação na área.

Na época, estava com pedido de visto para migrar para os EUA e, por questões pessoais, sabia que não continuaria trabalhando com ciência política. Me mudei para os EUA e fiquei um ano sem poder trabalhar, mas continuei estudando. Quando saiu o meu green card com autorização de trabalho, recebi uma oferta de emprego numa ONG de programas de assistência a jovens carentes na cidade de Chicago. Era a primeira vez que trabalhava numa ONG, até então somente havia trabalhado com pesquisa. A ONG era muito próxima da prefeitura da cidade, então foi uma experiência muito rica, porque pude ver mais de perto como o cientista social atua na prática. Eu trabalhava como assistente de programas e operações, e fazíamos uma ponte entre empresas de Chicago e jovens carentes. Tínhamos por objetivo conseguir estágios e empregos para jovens que, muitas vezes, nunca tinham ido nem ao centro da cidade. Daí, usei muito do que conhecia sobre teoria do reconhecimento e da justiça, traduzidas num linguajar não-técnico, não-acadêmico, tanto para empresários quanto para jovens. Fiz esse trabalho ao mesmo tempo em que continuava os meus estudos em ciência de dados.

Nos EUA comecei a conhecer pessoas em meet ups de grupos como o Data Girls. O R-Ladies é muito organizado em Chicago, onde morei por um tempo. Participar de grupos como o R-Ladies e o Women in Data Science foi muito importante para entender melhor a carreira de cientista de dados, mas também para socializar num país em que não conhecia ninguém. As mulheres desses grupos me ajudaram muito, me deram um suporte que eu precisava não só para começar minha vida nos EUA, mas também para entender e ter segurança de que poderia fazer isso. Foi uma rede de apoio essencial.

by unsplash

Devido à pandemia, tive que me afastar da ONG. Por conta de uma mudança para outra cidade e planos de engravidar, comecei a trabalhar como freelancer e, finalmente, com ciência de dados mesmo. A maior parte dos trabalhos que fiz até agora como cientista de dados, está relacionada à coleta. Tenho feito coletas de dados de API, web scraping e estruturação de banco de dados. Como freelancer, muitos dos trabalhos que consegui foram através de indicação. Pretendo continuar trabalhando como freelancer para robustecer meu portifólio e, então, procurar uma vaga como cientista de dados plena. Tudo isso considerando a minha filha, se vou querer deixá-la numa creche durante a pandemia. As coisas mudam quando nos tornamos mães. Enquanto isso, vou pegando trabalhos mais pontuais.

MJ: Considerando sua formação em ciências sociais, quais foram/são os aspectos mais desafiadores da ciência de dados?

N: O primeiro desafio, que é o mesmo para todos que estão entrando na ciência de dados de forma autodidata, foi ter o foco e a disciplina para continuar. Quando comecei a me interessar pela disciplina em 2017, ainda não havia cursos ou mestrados estruturados, hoje em dia eles já existem. Naquela época, estudava com o material que tinha na internet e muita gente ainda faz isso hoje. É difícil, porque uma coisa é fazer curso numa universidade, ter que sentar numa cadeira, prestar atenção no professor, fazer as provas etc. Outra coisa é quando não há accountability, alguém para fiscalizar o que você está fazendo, para puxar sua orelha se você não o fizer. É preciso ser muito disciplinado e focado.

Tive muitos “vai e voltas”. Isso acontece com todo mundo que está começando na ciência de dados, principalmente quem não é técnico, não é da área. Quando você começa a trabalhar num projeto e fica preso num problema de programação, chega a gastar até 3 horas tentando resolvê-lo e não descobre o que é; ou seu modelo dá overfitting e você fica dias para encontrar uma solução, é cansativo. A gente começa a se perguntar: será que eu nasci para isso? Você tem essas dúvidas, a síndrome de impostor/a.

A ciência de dados envolve estatística, matemática, programação, ciência da computação, da mesma forma que as ciências sociais englobam várias disciplinas. Você tem que dominar um número de coisas. A estatística era ok para mim. Quando comecei a tentar entender a matemática por trás do machine learning, não foi tão difícil — não que eu seja expert em cálculo. Como já programava em R, quando fui para Python também não foi tão difícil. Mas o período mais complicado, em que tive mais fases de desistência, foi quando me vi tendo que estudar engenharia de dados, que é mais sobre infraestrutura. Enquanto cientista social, uma pessoa mais analítica, ter que lidar com o terminal, a linha de comando, instalar sistema operacional, softwares necessários para criar a infraestrutura etc., tudo isso demandava aprender novas linguagens para entender qual era a lógica e a arquitetura dos processos. Foi demais para mim. Assim que passei por essa situação, no contexto de um curso, tive gás para continuar. E também entendi que não preciso ser uma engenheira de dados, pois há outras solucões mais simples disponíveis do que criar uma infraestrutura do zero, que era o objetivo do curso.

MJ: Em seu processo de formação como cientista de dados, tendo primeira formação como cientista social, você já experienciou a síndrome de impostora?

N: Acho que sempre tive síndrome de impostora. Obviamente a transição entre carreiras — mudei da área de humanas para uma carreira em tecnologia –, e ter mudado de país durante o mesmo período, demandou que eu começasse do zero. Mas já tinha a síndrome antes deste processo. Sabe aquela coisa de você ir à um congresso, assistir uma mesa e achar que pode contribuir com algum palpite ou observação, mas sentir vergonha?

Nesse sentido, grupos como o Data Girls são muito importantes para criar um tipo de apoio. Quando migrei para os EUA, participar do R-Ladies e do Women in Data Science foi essencial. Nós discutíamos sobre síndrome de impostora, debatíamos sobre o mercado de trabalho, como se preparar, montar um LinkedIn e uma rede. O interessante da área tecnológica é que você pode montar um portfólio com o que é capaz de fazer. Falávamos muito sobre isso, mesmo estando apenas no início da carreira, sem experiência anterior.

Me lembro de uma moça que conheci no Women in Data Science que era secretária executiva e queria migrar para área de software, ser engenheira de software. Ela foi um exemplo para mim, porque tinha uma formação em business/negócios, um portfólio que começou a construir trabalhando como freelancer, e nem se perguntava se tinha as habilidades… simplesmente ia — tal como a expressão fake it until you make it. Acho que essa é uma coisa mais comum entre os homens do que entre as mulheres. Segundo a minha percepção, já tive colegas que, tendo ou não as habilidades, simplesmente botavam a cara e faziam. Nós mulheres temos a tendência a pensar, pensar e pensar novamente, e achar que não somos capazes de fazer.

Aquela minha colega do Women in Data Science mandava cerca de 100 currículos por dia, passava por processos seletivos que demandavam a construção de projetos e depois adicionava tais projetos ao GitHub, ocultando o nome da empresa. Eu comecei a fazer o mesmo, sendo que antes pensava que por ser uma prova técnica para uma empresa, não deveria colocá-los lá. Mas ela falava: “foi seu trabalho! Você fez um trabalho para eles. Te deram um problema de negócios para resolver e você resolveu. Se não quiseram sua solução, problema… não disponibiliza o nome da empresa, mas coloca no seu portfólio”.

Eu já tinha as habilidades para trabalhar como cientista de dados, mas demorei muito para começar a me chamar “cientista de dados”, a buscar trabalho na área. Os trabalhos chegaram até mim por indicação de amigas e colegas, que se lembravam de mim quando ficavam sabendo que alguém precisava de um web scraping ou estruturar um banco de dados, por exemplo. Ou seja, eu tinha as habilidades, mas achava que não. As pessoas viam as habilidades em mim e me recomendavam, mas eu não jogava meu portfólio na rede.

Há muito para se debater com relação à síndrome de impostora e como ela atinge as mulheres. Essa discussão precisa adentrar todos os lugares, devido a potencialidade de esse ser um fator que cria ou acirra desigualdades, por falta de representatividade de gênero e de raça, principalmente na ciência de dados, que pode ser muito enviesada a depender de como o/a cientista trabalha seus dados.

MJ: Qual conselho você daria para um/a cientista social que está começando seus estudos em ciência de dados?

N: Para qualquer pessoa que está começando na ciência de dados, uma dica importante — que gostaria de ter recebido quando comecei a estudar –, é primeiro investigar o que é a área e quais os possíveis trabalhos a serem realizados nela. Isso porque, a ciência de dados é muito abrangente. Há vários papéis e ocupações, então seria melhor ter uma ideia do que você, provavelmente, gostaria de fazer. É interessante para conseguir direcionar o estudo! Eu não tinha ideia, saí procurando material sem saber quais eram as habilidades que precisava. Hoje sei que gosto de trabalhar com análises, mais a parte de business analytics. Estudo e estou sempre me atualizando em relação aos modelos de machine learning, porque eu gosto, mas também como um meio para o fim que realmente me interessa, que é responder perguntas de negócios. E sei que não me dou bem com engenharia de dados! Gosto de recomendar que as pessoas comecem a estudar pela estatística e pela programação, porque a ciência de dados não é só isso, mas aprender habilidades relacionadas a tais campos já é algo importante para buscar uma primeira vaga.

Uma outra dica que dou, e como cientistas sociais temos essa capacidade que muita gente de áreas técnicas não tem, é aprender a formular perguntas, buscar hipóteses e, a partir daí, buscar os meios para respondê-las. Acho que a ciência de dados nos dá esses meios. No Brasil vejo que há muitas vagas para analista, e penso que uma boa estratégia seja entrar como analista, para, então, continuar estudando e passar à outra posição que possa ter mais a ver com você.

MJ: O que você diria para um/a cientista de dados que não enxerga as possíveis relações entre esta área e as ciências sociais? Por fim, como cientista política, quais você considera serem suas contribuições para a ciência de dados?

N: A primeira coisa que a gente precisa entender é que dados são produtos da interação entre as pessoas e a tecnologia. As interações acontecem, por exemplo, nas mídias sociais, em transações no cartão de crédito ou quando se assiste Netflix. Ou seja, eles são produto da ação humana, e quem melhor para entender o comportamento humano do que um/a cientista social? Para fazer um bom modelo que não seja enviesado, tendencioso, é preciso ter um entendimento sobre a sociedade em que vivemos, como as pessoas interagem nela, o que elas esperam de um bom produto ou da representatividade. Para um/a cientista de dados que é técnico/a, está pensando em criar o melhor modelo preditivo, se ele/a não consegue entender o comportamento das pessoas que estão interagindo com a tecnologia, há possibilidade de que seja tendencioso/a.

A minha preocupação enquanto cientista política, particularmente, é responder perguntas e criar produtos que não fortaleçam desigualdades, não tornem as sociedades mais desumanas. Nós criamos perigo quando não vemos a diversidade no mundo e dos comportamentos, podendo robustecer injustiças. O/a cientista de dados talvez não esteja vendo os dados dessa forma. Ele/a pode estar vendo apenas qual produto consegue criar, qual a melhor forma de responder à determinada pergunta, fazer uma previsão. Mas, para criar a melhor solução, é preciso entender a cabeça de quem está gerando os dados.

Nós, cientistas sociais, temos uma visão crítica do mundo, que não é ensinada em disciplinas técnicas. Então, acho que equipes multidisciplinares tendem a ser mais bem-sucedidas, não só na criação de produtos que realmente atendam às necessidades das pessoas, mas também por não gerarem ainda mais desigualdades. Como cientista política que migrou de carreira, tenho muita preocupação com a forma de tratamento dos meus dados, porque sei que a minha visão de mundo pode influenciar o modelo que estou criando ou as respostas para os problemas de negócios que estou analisando. Vai além de criar um bom produto.

Trabalhar com dados e não ter clareza quanto aos efeitos dos modelos sobre as vidas das pessoas, pode ser muito perigoso. Por isso é importante que a ciência de dados, e a área de tecnologia como um todo, seja diversa, tenha mulheres, pessoas negras e LGBTs… não só diversa em relação às pessoas que fazem parte da equipe, mas também multidisciplinar, que tenha engenheiros/as, cientistas da computação, cientistas sociais etc. Pessoas que tragam uma visão de mundo que seja justa para a análise desses dados.

Um agradecimento especial à Natalia por ter aceitado o convite e dedicado parte de seu tempo — nosso bem mais precioso — respondendo minhas perguntas. Essa publicação, colorida pela experiência pessoal de Natalia, certamente é essencial para o Data Girls e nossa comunidade de modo geral.

Por: Maria Júlia Tavares Pereira (@majutpe). I’m a Data Girl!

[1] <https://stilingue.com.br/>.

Fica de olho nas nossas redes sociais para mais informações:

Instagram: @datagirls.neuron

e postagens no nosso Linkedin!

--

--