Bioinformatas: Richard M. Durbin
Olá pessoal, nesta semana daremos continuidade a nossa série de posts “bioinformatas”, desta vez abordando um pouco da vida de Richard M. Durbin, bem como suas contribuições na área da bioinformática 😃
Biografia
Durbin iniciou seus estudos em matemática pela Universidade de Cambridge, graduando-se em 1982 e logo em seguida realizou seu doutorado na área de biologia do desenvolvimento, com foco no sistema nervoso do nematódeo Caenorhabditis elegans, um importante modelo experimental para embriologia. Posteriormente, passou a integrar a equipe responsável pelo projeto genoma de C. elegans, assumindo a responsabilidade pelo gerenciamento de informação genômica, o que culminou no desenvolvimento do AceDB.
AceDB e WormBase
O AceDB (A C. elegans Database) foi um software para gerenciamento de informações genômicas criado por Durbin e colaboradores para o projeto genoma do C. elegans. Posteriormente este software viria a ser estendido, dando origem ao banco de dados WormBase, um repositório web que também inclui dados genômicos curados para vários outros nematódeos.
Pfam e HMMs
Conforme abordamos na série Bancos de Dados Biológicos, Durbin também contribuiu ativamente para o desenvolvimento do banco de dados Pfam, que iniciou através da catalogação de famílias de proteínas no contexto do projeto genoma de C. elegans, mas depois se estendeu para outros organismos. Esta foi uma das primeiras iniciativas de bioinformática a empregar os Modelos Ocultos de Markov (Hidden Markov Models, HMMs) em larga escala.
Os HMMs começaram a ganhar popularidade na área de análise de proteínas em 1992 e em 1995 Sean Eddy descreveu o pacote de ferramentas HMMER, que permite a construção de HMMs a partir de alinhamentos múltiplos de sequencias e o seu uso na busca por similaridade. Este software seria posteriormente utilizado no desenvolvimento do Pfam.
Biological Sequence Analysis
Em 1998, Durbin publicou o livro Biological Sequence Analysis: Probabilistic models of proteins and nucleic acids, compartilhando a autoria com Sean Eddy, Anders Krogh e Graeme Mitchison. O livro aborda diferentes estratégias para comparação de sequências biológicas, incluindo alinhamento local e global de sequências de modo pairwise, algoritmos heurísticos de busca por similaridade, alinhamento múltiplo, filogenia, representação de sequências através de HMMs e inferência de estruturas secundárias de RNAs usando métodos de gramática formal.
Apesar de possuir mais de 20 anos e não incluir tópicos mais “modernos”, como uso de redes neurais profundas ou novos métodos heurísticos para alinhamento surgidos no contexto do NGS (ex: Diamond), o livro ainda é uma das principais referências para o estudo dos algoritmos “clássicos” para análise de sequências biológicas.
1000 Genomes
Durbin também colaborou ativamente com o projeto 1000 Genomes, cujo objetivo foi a identificação de variantes genéticas características de diferentes populações espalhadas ao redor do mundo. Este projeto utilizou sequenciamento de DNA de nova geração (NGS) — majoritariamente Illumina — , para se fazer um mapeamento do genoma completo de mais de 1000 indivíduos ao longo de “3 fases”. Tanto os dados brutos (leituras) quanto os resultados das análises de SNPs foram disponibilizados publicamente.
Uma das principais contribuições do Durbin no contexto deste projeto foi o desenvolvimento do pacote SAMtools. Este pacote inclui diversos utilitários para se realizar o processamento de dados de alinhamento de leituras de sequenciamento contra sequências de referência, servindo como a implementação de referência para a manipulação dos formatos de arquivo como o SAM (Sequence Alignment Map) e BAM (Binary Alignment Map), amplamente utilizados atualmente em análise de dados de NGS. Além disso, possui várias funcionalidade para identificação de variantes genéticas, podendo ser utilizado em conjunto com ferramentas GATk e FreeBayes para análise SNPs em organismos com diferentes “ploidias”.
Outra importante contribuição derivada de sua experiência no 1000 Genomes foi o desenvolvimento da ferramenta BWA ( Burrow-Wheeler Aligner) para mapeamento de leituras, a primeira a utilizar a técnica de Burrow-Wheeler Transform (BWT) para facilitar a compressão de dados genômicos. Esta abordagem permite que o mapeamento de leituras contra genomas completos se dê de forma mais rápida e ao mesmo tempo consumindo menos memória.
Reconhecimento
Durbin foi eleito em 2004 para a Royal Society da Reino Unido, uma das principais e mais antigas entidades científicas do mundo. Em 2017 recebeu, desta mesma sociedade, a Gabor Medal, em reconhecimento pelas suas importantes contribuições para a bioinformática e biologia molecular.