Entendendo o BLAST (parte II): O web BLAST e seus resultados

Published in

omixdata

7 min readDec 23, 2020

Oi pessoal! No post de hoje vamos falar sobre a interpretação dos resultados no BLAST. Fizemos há pouco uma parte I desse tutorial de BLAST, explicando como são feitas as análises e falando um pouco mais dos tipos de BLAST e dos conceitos envolvidos. Vale a pena dar uma conferida!

Para esse post, trago um tutorial para vocês! Além do vídeo, tem também o conteúdo escrito, caso você não possa olhar o vídeo agora.

Como executamos a análise do BLAST pela plataforma web?

A plataforma web do BLAST, o web BLAST, é encontrado junto ao site do NCBI (National Center for Biotechnology Information). Como explicado no último post da série, temos diversas maneiras de realizar o alinhamento pelo BLAST. Cada uma destas formas é representada por uma divisão dentro da ferramenta. O Nucleotide BLAST, ou BLASTn, é utilizado para alinhamento de nucleotídeos, por exemplo.

Região de submissão da sequência no web BLAST.

No primeiro quadro é a região de submissão, onde será especificada a sequência a ser analisada. Existem diferentes formas de informar a sequência: uma delas é inseri-la no campo “Enter accession number(s), gi(s), or FASTA sequence(s)”. Ela pode ser inserida como uma sequência no formato FASTA, pode ser informado o número de acesso do GenBank ou ainda o número GI, que significa GenInfo Identifier (identificador de informação do gene).

Outra forma é fazer o upload do arquivo com a sequência no botão “Escolher arquivo”. Pode-se ainda definir uma sub localização dentro da sequência enviada, através do Query subrange. Neste campo, escolhe-se uma posição de início (From) e uma de fim (To) dentro da sequência utilizada.

Em Job Title podemos dar um título para essa pesquisa. Ainda podemos marcar a caixa no canto inferior esquerdo se quisermos realizar um alinhamento múltiplo das sequências inseridas. Para realizar o alinhamento múltiplo é necessário informar mais de uma sequência.

O primeiro quadro é igual para quase todas análises no webserver, somente sendo adicionada a opção “Genetic Code” no BLASTx e no tBLASTx. Isso ocorre para que seja selecionado o código genético que será utilizado na tradução da proteína que esses métodos de pesquisa realizam.

Parâmetros de busca utilizando o BLASTn.

Já o segundo quadro é onde vamos organizar os parâmetros do alinhamento, como o banco de dados a ser usado ou os organismos que devem ser inseridos ou excluídos da pesquisa. Esse quadro apresenta opções diferentes em cada versão da ferramenta, ou seja, os parâmetros para uma busca de nucleotídeos não serão os mesmos em uma busca de aminoácidos.

O BLASTn e o BLASTp apresentam mais um quadro. Nele é possível realizar a escolha do algoritmo que será usado para a pesquisa. Geralmente se utiliza a opção default, mas vamos falar rapidamente de cada uma delas abaixo.

BLASTn

A opção default é o Megablast. Existem três opções de algoritmo para o BLASTn, sendo elas:

Megablast — criada para comparação de sequências muito relacionadas com a sequência enviada, sendo um método muito rápido. Funciona melhor se o alvo tiver 95% ou mais de identidade.
Megablast descontínuo (discontiguos megablast) — usa uma seed inicial que ignora algumas bases, permitindo mismatches. É mais utilizado para comparações entre espécies.
BLASTn — é mais lento, porém permite tamanhos de palavras menores (até 7 bases).

BLASTp

A opção default é o BLASTp. Existem cinco opções de algoritmo para o BLASTp, sendo elas:

QuickBLASTp — é uma versão acelerada do BLASTp, funcionando melhor se o alvo tiver 50% ou mais de identidade.
BLASTp — compara a proteína inserida com um banco de dados proteico.
PSI-BLAST (Position-Specific Iterated) — permite que o usuário crie uma PSSM (matriz de pontuação posição-específica, do inglês position-specific scoring matrix) usando os resultados da primeira rodada do BLASTp.
PHI-BLAST (Pattern Hit Initiated) — realiza a pesquisa limitando os alinhamentos àqueles que seguem um modelo dentro da sequência informada.
DELTA-BLAST (Domain Enhanced Lookup Time Accelerated) — constrói uma PSSM usando os resultados de uma pesquisa no banco de dados de domínios conservados. Utilizando a PSSM, realiza a pesquisa em um banco de dados de sequências.

Após a definição das opções, é possível visualizar uma prévia das configurações ao lado do botão “BLAST” (como o banco de dados utilizado e o algoritmo selecionado). Abaixo do botão é possível ver também as configurações de parâmetros do algoritmo (“Algorithm parameters”), nas versões em que é possível selecionar o algoritmo a ser usado.

A opção “Show results in a new window”, dependendo das configurações do seu navegador, abrirá a página dos resultados em uma nova aba ou nova janela. É uma opção útil para caso você queira comparar a pesquisa trocando somente alguns parâmetros, por exemplo.

No página inicial dos resultados é exibido um resumo das opções selecionadas para a pesquisa, bem como os resultados. Eles são divididos em quatro abas: Descrições (Descriptions), Sumário Gráfico (Graphic Summary), Alinhamentos (Alignments) e Taxonomia (Taxonomy). Será falado um pouco mais sobre cada uma delas abaixo.

Visualização das abas em que são dividos os resultados e dos parâmetros na aba “Descrições”.

Na aba descrições é possível visualizar a maioria dos resultados. Na nova versão do BLAST, temos a opção “Select columns” na qual podemos escolher quais destas subdivisões vão estar visíveis no resultado. As subdivisões desta aba são, em ordem: descrição, nome científico, nome comum, taxid, max score, total score, cobertura da query (que é a sequência enviada pelo usuário), E value, porcentagem de identidade, tamanho da sequência comparada e código de acesso da sequência comparada.

É possível fazer o download desses resultados em diversos formatos. Pode-se selecionar através dos “checkbox” ao lado do nome da sequência quais alinhamentos farão parte do arquivo baixado. Como dito anteriormente, na nova versão é possível definir quais parâmetros farão parte do resultado para download.

Max score e total score são parâmetros complementares. Eles estão ligados com o valor obtido pelo alinhamento. O max score é o valor máximo que pode ser obtido naquele alinhamento, enquanto o total score é o valor obtido pelo alinhamento. Se o total score for igual ao max score significa que o alinhamento obteve o maior valor possível.

Cobertura da query é um valor importante de ser observado, por que ele demonstra o quanto da sequência enviada conseguiu realizar um alinhamento. Por exemplo, pode ser que só um pedaço da sequência enviada seja alinhada e, por isso, os valores do alinhamento sejam bons.

E-value é um parâmetro muito importante de se olhar ao realizar um alinhamento. Ele demonstra a possibilidade do alinhamento ter sido realizado ao acaso. Quanto mais próximo ao zero (0) o valor for, mais confiabilidade pode se ter no alinhamento.

A porcentagem de identidade está relacionada com a similaridade da sequência enviada pelo usuário com a sequência alinhada, levando-se em consideração a cobertura da sequência.

Parâmetros dos resultados na aba “Alinhamentos” do BLASTn.

Alguns outros parâmetros somente aparecem quando o alinhamento é observado. O score é presente também nessa visualização. É possível visualizar o valor de “identities”, que demonstra o número de matches do alinhamento. Um match é quando a sequência enviada e a sequência comparada possuem o mesmo nucleotídeo ou um mesmo resíduo na mesma localização.

Além disso, é possível visualizar o número de gaps, que são espaços adicionados pelo algoritmo por não existir similaridade naquela região. Ainda é possível observar o tipo de alinhamento realizado, ou seja, qual o sentido das fitas no alinhamento (plus/plus, plus/minus). Para proteínas, não é observado o tipo de alinhamento e é adicionado o parâmetro “positives”.

Visualização da aba “Sumário Gráfico” do BLASTn.

Na aba “Graphic Summary” é possível observar os alinhamentos em forma de gráfico. Ao passar o mouse por cada uma das linhas, observa-se o nome da sequência à qual a sequência submetida (que é demonstrada em cima, em azul, com o nome “Query”) foi alinhada. Existe um padrão visual, o qual mostra as linhas representando as sequências com cores diferentes, baseado no score que foi obtido no alinhamento.

Visualização da aba “Sumário Gráfico” do BLASTp.

Para proteínas, se forem detectados domínios conservados na sequência, eles são demonstrados antes dos gráficos de alinhamento de sequência.

Como o BLAST possui diversos usos, esperamos que através desse tutorial seja mais fácil analisar seus dados. Com ele, podemos identificar espécies através da busca de genes específicos, localizar domínios conservados de proteínas, estabelecer relações filogenéticas, mapear o DNA e o posicionamento de genes, comparar sequências, tanto de nucleotídeos quanto de proteínas, entre diversas outras.

Nesse post, abordamos como rodar o BLAST pela plataforma web e falamos um pouco sobre como interpretar os resultados. Além da forma que foi demonstrada nesse tutorial, existem outras maneiras de rodar a ferramenta BLAST. Uma dessas formas é localmente, através de linha de comando. Se você ainda quer aprender mais sobre o BLAST, fica ligado pois esse não é o último post da série. Até a próxima!

Entendendo o BLAST (parte II): O web BLAST e seus resultados

Como executamos a análise do BLAST pela plataforma web?

BLASTn

BLASTp

Written by Giuli Marques