Como é Trabalhar com Dados na área de Bioinformática?

Jéssica Costa
A Garota do TI
Published in
3 min readJan 18, 2023

Uma das grandes questões que me vem a mente quando alguém me pergunta sobre o que estudar para trabalhar com dados é que tipo de área/negócio a pessoa vai atuar. Tão importante quanto saber técnicas, é entender onde estas técnicas vão ser aplicadas. Cada área tem suas características e dificuldades, é importante ter ciência disso. Atualmente faço uma pesquisa de mestrado aplicada à área de bioinformática e vou falar um pouco sobre como é trabalhar com este assunto.

Para começar é preciso estudar biologia, principalmente a molecular. Conceitos como gene, genoma, DNA, RNA, proteína, molécula vão estar bem presentes nas suas leituras. Principalmente para quem é da Computação, às vezes é difícil entender tanto assunto biológico e no começo parece que você não é possível absorver. Mas ao definir o seu problema, será mais fácil focar no que é preciso aprender. A área é muito abrangente, não dá para aprender tudo.

Trabalhar com dados dentro da bioinformática significa ter uma infinidade de dados disponíveis publicamente. Desde de dados mais abrangentes de assuntos diversos até específicos para um único organismo. Bancos como NCBI, Ensembl, Uniprot, PDB são bem utilizados. Tem dado oriundo de experimento, de text mining, de outros bancos de dados, de execução de análises. Dada essa diversidade, quando for começar uma análise sempre se atentar qual a origem dos dados. Tem alguma curadoria? Tem algum trabalho que descreve estes dados e como eles foram gerados? Foi algum algoritmo? Seus resultados vão depender muito dessa origem.

Existem bancos de dados muito amigáveis com uma usabilidade muito boa. Alguns até disponibilizam APIs para facilitar a busca e extração dos dados. Porém em muitos casos a usabilidade não ajuda muito. A busca pelos dados não é tão trivial e será preciso fazer várias pesquisas dentro do mesmo banco. Muitos bancos disponibilizam os dados via FTP e será preciso navegar entre as pastas para realizar as extrações.

Outra característica da área é que os bancos de dados não tem ligação entre si e a integração de dados pode ser bem trabalhosa. Muitas vezes é possível utilizar um base de dados intermediária para conseguir integrar outras duas bases. Na maioria das vezes os dados também não estão modelados de forma relacional. São diversos formatos a depender do assunto. Como a área que atuo se refere à estrutura primária das proteínas, formatos-texto sempre estão presentes, inclusive o famoso Fasta.

Ainda falando sobre os formatos texto, a execução de scripts é bem comum, especialmente para gerar novos dados. Então linguagens como Perl, Python estarão bem presentes nos scripts para bioinformática. Não significa que só se use elas, mas são bem frequentes. Ainda sobre as linguagens, a execução desses scripts muitas vezes é feita por linha de comando e alguma distribuição Linux facilitará bastante este trabalho. Atualmente com ambientes Jupyter, Google Colab, Kaggle e até a Cloud há uma facilidade maior para trabalhar.

Como já mencionado, os dados são de diversas fontes, então pode ter dado faltante, outliers ou algum tipo de erro. Reserve tempo para fazer análises exploratórias e pré-processamento. Bases desbalanceadas são muito frequentes, então ao aplicar modelos de Machine Learning, provavelmente este problema vai aparecer e será necessário aplicar alguma técnica para tentar balancear, pois na maioria dos casos não é tão fácil agregar mais dados reais.

Sobre Machine Learning, é preciso salientar que resultados de algoritmos necessitam de validação biológica para serem considerados corretos. Então muitos dos resultados são sugestivos e servem principalmente para ajudar o profissional da área biológica nos seus experimentos de validação. Uma aplicação bem interessante é que as predições possam ajudar a definir o que vai ser validado, diminuindo a quantidade de testes e consequentemente de tempo. Imagine testar todas as hipóteses possíveis?

São muitas dicas e é possível passar muito mais. Mas é importante destacar que as técnicas fazem sentido no problema. Você pode estudar estatística, algoritmos de machine learning, visualização de dados, técnicas de pré-processamento, análise exploratória, mas definir o que se deve aplicar dependerá da área que será aplicada. Inclusive porque a forma que se analisa em um problema, pode ser totalmente diferente em outra. A área de bioinformática é gigante, fascinante e tem grande potencial. Mas demanda tempo, muita pesquisa e foco, mas não tem fórmula pronta.

--

--

Jéssica Costa
A Garota do TI

Mestre em Ciência da Computação, GDE em Machine Learning e Cientista de Dados