A visão de uma bibliotecária, agora desenvolvedora back-end trabalhando com a Ciência de Dados

InFoco
InfocoNaBiblio
Published in
7 min readOct 11, 2020

Por: Amanda Andrade

Amanda Andrade é graduada em Biblioteconomia pela ECA/USP, com especialização em Gestão da Informação Digital pela FESPSP e atua com desenvolvimento back-end na Cromai Tecnologias Agrícolas e cedeu essa entrevista para o InFoco para contar um pouco sobre a área de Ciência de Dados.

Amanda como uma bibliotecária fica sabendo e acaba trabalhando com ciência de dados?

Comecei a me interessar por desenvolvimento de softwares quando senti a necessidade de conhecer um pouco mais sobre os sistemas que eu utilizava nas bibliotecas e arquivos por onde trabalhei. Muitas vezes precisava: acrescentar uma funcionalidade extra, mostrar a informação para o usuário de uma forma diferente ou simplesmente poder extrair relatórios mais personalizados. Eu gostava de conversar com as equipes de tecnologia para investigar essas possibilidades e muitas vezes acabava explorando outras funções que aquele sistema oferecia. Claro que às vezes eu ficava frustrada em não conseguir fazer essas mudanças sozinha e isso me fez procurar iniciativas que ofereciam cursos de tecnologia para iniciantes.

O que te atraiu para trabalhar com a Ciência de Dados?

Quando você começa a estudar tecnologia, você pode se deparar com alguns temas que servem de ponto inicial, como HTML (linguagem de marcação que usa tags para estruturar texto), CSS (construção de estilos para documentos), banco de dados (conjunto de informações registradas em arquivo e que possuem certo grau de relacionamento) e linguagens de programação (Java, PHP, C++, Go, R, Python, etc.). O ideal é que você conheça alguma linguagem de programação para entender também como funcionam os fundamentos de algoritmos. No meu caso, comecei estudando Python porque é a mais fácil de aprender e também porque tive a oportunidade de entrar em contato com a comunidade PyLadies em São Paulo.

Me recordo também que em 2019, assisti uma palestra do Prof. Adilson Luiz Pinto (UFSC) promovida pelo CRB-8/SP que abordou o tema “O Bibliotecário na era da informação de dados”. A apresentação do professor sobre o contexto de produção e armazenamento em massa de dados me fez refletir sobre as possibilidades de gestão e disponibilização de informações. Tendo a informação como objeto de estudo, acredito que a Biblioteconomia e a Ciência da Informação pode se apropriar da Ciência de Dados para tornar ágil alguns processos e, ao mesmo tempo, contribuir com a construção e consolidação de metodologias para dados. Bibliotecários têm uma vasta experiência na transformação de documentos em conteúdos pesquisáveis e fazem todo um processo para levar a informação mais relevante ao consumidor. A representação descritiva, indexação e classificação são exemplos de metodologias que facilitam a cooperação entre instituições e o intercâmbio de dados entre unidades de informação. Para mim, a Ciência de Dados veio para contribuir na indexação, descrição e gerenciamento dessas informações, mas agora em um contexto de produção e armazenamento exponencial.

Você acredita que a Ciência da Informação contribui de alguma maneira com a Ciência de Dados?

Acredito que a Ciência da Informação há anos contribui para a construção de uma rede de dados padronizados. As metodologias de indexação e catalogação alimentam bancos de dados com menos desvios de padrão que, por sua vez, facilitam o trabalho de quem precisa de uma base coerente para desenvolver algum algoritmo de Inteligência Artificial (IA).

Uma abordagem que exemplifica bem isso é a indexação de imagens. De certa forma, os algoritmos de aprendizado de máquina precisam de um parâmetro para que possam aprender a classificar novos objetos. Para aplicar a IA na identificação de imagens, os algoritmos são literalmente treinados com um conjunto de dados menor, de modo que consigam depois classificar automaticamente novas imagens. O conjunto de dados para treino precisa estar bem representativo do objeto que se deseja identificar, evitando futuros erros de classificação.

Por exemplo, se você precisa classificar todas as imagens em que aparecem cachorros numa base de dados, é preciso treinar o modelo de IA com um conjunto menor de imagens que contém cachorros. Logo, tendo uma variedade representativa dessas imagens, o modelo terá maior facilidade em distinguir aquelas onde há cachorros ou não. Muitas vezes, essa etapa consome mais tempo no trabalho do cientista de dados do que o desenvolvimento do algoritmo em si. Por isso, o trabalho prévio de classificação e indexação é fundamental e pode impactar tanto na performance do algoritmo quanto no acerto das predições.

Um exemplo de como pode ser a classificação de imagem para o algoritmo:

Fonte: https://cdn-media-1.freecodecamp.org/images/1*bt-E2YcPafjiPbZFDMMmNQ.jpeg

Você precisou complementar seu conhecimento de alguma forma? Quais os tipos de curso que você teve que fazer?

Sim e muito! Estudei e ainda estudo muito. Atuando com tecnologia, você precisa estar em um constante aprendizado porque não se usa apenas uma ferramenta ou linguagem, mas várias! Algumas pessoas desenvolvedoras de software chamam de stacks: conjunto de tecnologias que são usadas na construção de um sistema, de um site ou aplicativo. Você pode estudar conforme a necessidade de um projeto ou por motivação pessoal.

Existem cursos para a maioria das stacks e muitos deles é possível fazer online. Há cursos pagos e gratuitos, além de muitos materiais e fóruns que ajudam a tirar dúvidas. Algo que é bastante presente na comunidade de tecnologia em geral é o compartilhamento. Há sempre alguém escrevendo algum artigo no Medium ou resolvendo alguma dúvida de outra pessoa no Stackoverflow. Eu já usei a plataforma da Alura e da Digital Innovation One, que contém cursos em português, mas há bons cursos também no Coursera, Udemy e Udacity e em português ou em outras línguas.

Tive a oportunidade também de fazer dois cursos de imersão: um em desenvolvimento Full-Stack para Web e outro em Ciência de Dados. Os dois cursos foram voltados para o ingresso de mulheres nas carreiras de tecnologia e deixo aqui meu agradecimento à Digital House e à comunidade WoMakersCode pelo apoio nessa trajetória. Acredito que esse tipo de curso contribui na construção de projetos mais complexos e a trabalhar em dinâmica com equipes.

Para Data Science, recomendo começar estudando Python ou R e estrutura de algoritmos. Algumas bibliotecas facilitam bastante o dia-a-dia, como o Pandas, Matplotlib e Numpy.

Um pouco parecidas com as nossas bibliotecas do mundo real, as bibliotecas de uma linguagem de programação ajudam os programadores ao concentrar e disponibilizar funções que podem ser usadas nos nossos projetos. Com isso, eu diria que não é preciso inventar a roda toda vez que for construir algum código.

Vale a pena também entender alguns conceitos básicos de estatística, lógica de programação e bancos de dados. Dentro das metodologias usadas por um cientista de dados, há ainda a visualização de dados e storytelling, que basicamente concentra boas práticas para melhor apresentação dos resultados. Outras competências podem ser necessárias também, conforme a área da atuação do profissional.

Um exemplo de áreas e habilidades que envolvem um Cientista de Dados. Gráfico adaptado por Biswaroop Padhi do original de Stephen Kolassa. Você pode acessar esse link para visualizar a imagem em tamanho maior.

Qual a principal vantagem em ter o conhecimento de bibliotecária e as experiências que você já possuía ao trabalhar com a ciência de dados?

Ter experiência com gestão de informações faz muita diferença. De certa forma, seu objeto de trabalho não muda, mas sim a forma como você aplica ferramentas e metodologias para interagir com a informação. Tive boas experiências com representação descritiva e indexação de documentos e, de certa forma, estava bem ambientada com esse trabalho mais voltado para a gestão de informações.

Acredito também que a graduação e a experiência em uma área diferente das ciências exatas traz hoje mais pluralidade para as equipes de tecnologia. Nem sempre as soluções para os produtos tecnológicos são resolvidas puramente com lógica ou matemática. A maior parte das tarefas demandam criatividade e muitas vezes, soluções simples e bem comunicadas.

Como você citou a vantagem sobre seus conhecimentos, qual foi a principal desvantagem em ser uma bibliotecária adentrando essa “nova área”?

Eu não acredito que ter conhecimentos em Biblioteconomia seja uma desvantagem em si. Pelo contrário, minha experiência profissional na carreira como bibliotecária me fez crescer muito em aspectos interpessoais. Entretanto, em certos momentos fui questionada e desacreditada por algumas pessoas ao comparar meu interesse por Ciência de Dados ou Programação com a minha trajetória profissional. Há um senso comum que ainda imagina que todos os bacharéis de Biblioteconomia trabalham apenas com bibliotecas (e que os bibliotecários passam o dia todo lendo!).

Adquirindo essa experiência com a Tecnologia, aprendi duas lições: não há limite de idade para se aprender novas coisas e é fundamental praticar, praticar e praticar. Assim como escrever, desenhar, dançar e cozinhar, as primeiras tentativas podem não ter bons resultados, mas a prática e o treino ajudam muito no desenvolvimento de competências. Hoje superada essa barreira do questionamento e da síndrome do impostor, tenho orgulho de atuar com desenvolvimento de software para uma startup que promove soluções com inteligência artificial.

Caso você queira tirar mais dúvidas dessa área com a Amanda você pode segui-la no Linkedin.

--

--

InFoco
InfocoNaBiblio

Um grupo de bibliotecários preocupados com o futuro da profissão e sociedade. Insta @infoconabiblio | fb.me/infoconabiblio | contato@infoconabiblio.com.br