Bioinformática e predição de solubilidade: resolvendo o problema das proteínas heterólogas?

Alessandra Neis
omixdata
Published in
4 min readSep 29, 2021

Olá pessoal, no post de hoje vamos falar sobre a solubilidade de proteínas recombinantes e o papel da bioinformática para auxiliar a prever o comportamento dessas moléculas em condições de superexpressão.

O sistema de expressão de proteínas recombinantes mais utilizado é a enterobactéria Escherichia coli e estima-se que 60% de todas proteínas recombinantes reportadas na literatura sejam produzidas através dessa plataforma de expressão. Porém, apenas 30% das proteínas eucarióticas são obtidas com sucesso (CORREA; OPPEZZO, 2014). Pela diferença de maquinaria molecular entre procariotos e eucariotos, muitas proteínas acabam sendo degradadas enquanto outras sofrem o processo de agregação. Nesse sentido, as proteínas parcialmente enoveladas ou fora de sua conformação ficam armazenadas em corpos de inclusão, que são agregados insolúveis de difícil ressolubilização, muitas vezes prejudicando a atividade da proteína por não estar em sua conformação adequada (KAUR; KUMAR,; KAUR, 2018). Diversas estratégias podem ser utilizadas para contornar esse problema, mas aqui nós focaremos nas ferramentas que a bioinformática proporciona para resolver esse problema.

Corpos de inclusão em E. coli (IB). Fonte DOI:10.1002/btpr.538

É importante destacar que a solubilidade não é definida por apenas um fator e não pode ser predita de forma confiável apenas através de métodos baseados nas características físico-químicas das sequências de aminoácidos (CHAN; CURTIS; WARWICKER, 2013). Grande parte dos softwares é dedicado à predição das características físico-químicas das sequências primárias, sendo baseados em algoritmos de machine learning com baixa taxa de sucesso (EBERT; PELLETIER, 2017). Alguns poucos utilizam a estrutura quaternária para a predição (CHANG et al., 2013), que levaria em conta fatores como enovelamento, carga líquida, estabilidade e interações inter-moleculares. Os softwares de bioinformática devem, preferencialmente, ser utilizados em conjunto para garantir uma maior confiabilidade nos resultados. Outro fator que dificulta o desenvolvimento de ferramentas confiáveis é a disponibilidade de dados para treinamento dos modelos de ML, em que muitas moléculas conhecidamente solúveis e insolúveis devem ser utilizadas a fim de ter uma amostra significativa e aumentar o poder de predição. Em geral, duas bases de dados são as mais utilizadas: The Structural Biology Knowledgebase e e-Sol . Ainda, as ferramentas podem estar disponíveis em webserver ou stand-alone, em que o usuário utiliza através de linha de comando. Aqui abordaremos apenas aquelas disponíveis em webserver:

Softwares baseados em sequência:

Protein-sol utiliza parâmetros como composição de aminoácidos, tamanho da sequência, ponto isoelétrico, hidropatia, carga absoluta em pH 7, probabilidade de dobramento, desordem, entropia de sequência e propensão à formação de folhas beta. Também é fornecido o threshold proveniente de dados experimentais. Têm-se que abaixo de 45%, a propensão da proteína ser solúvel é baixa.

SolPro foi treinado para avaliar o tamanho da sequência, formação de voltas, folhas beta e alfa-hélices, carga absoluta por resíduo, peso molecular, hidropaticidade, índice alifático e número de domínios.

CCSol tem como parâmetros o nível de desordem de regiões chamadas coils, hidrofobicidade, hidrofilicidade e propensão à formação de folhas beta e α-hélices.

Softwares baseados em estrutura:

SOLart utiliza características estruturais para a predição de solubilidade, como a energia livre de enovelamento dada pelos potenciais de ângulo de torção do backbone, acessibilidade ao solvente e dois potenciais de distância de interações. Outras características mais importantes para a predição incluem o comprimento da proteína, seguido da acessibilidade ao solvente e frações de alguns tipos de aminoácidos.

CamSol além de predizer a solubilidade, a ferramenta CamSol indica possíveis mutantes com maior probabilidade de serem solúvel quando superexpressos. Os passos seguidos são os seguintes: (i) Cálculo do perfil de solubilidade intrínseca específica de resíduos, que utiliza uma variação do método Zyggregator (e a hidrofobia, a carga (em pH neutro), a propensão da hélice α e a propensão da fita β do resíduo, padrões de alternância de resíduos hidrofóbicos e hidrofílicos, cargas individuais, propensões de estrutura secundária); (ii) cálculo da correção estrutural para o perfil de solubilidade intrínseca (Nas correções estruturais, os perfis calculados na etapa (i) são modificados para levar em conta a proximidade dos aminoácidos na estrutura tridimensional e para sua exposição ao solvente); (iii) identificação de locais de mutação adequados usando o perfil de solubilidade corrigido estruturalmente e (iv) triagem de todas as variantes possíveis para identificar o mais solúvel usando uma pontuação geral de solubilidade intrínseca.

Aggregscan3D O servidor Aggrescan3D 2.0 prevê a propensão à agregação em estruturas de proteínas e também permite o design racional da solubilidade. A propensão de agregação é calculada para regiões esféricas centradas em cada resíduo de carbono Cα, a área de superfície relativa exposta ao solvente, flutuações estruturais e agrupamento espacial de resíduos distantes na sequência de proteínas.

Referências

--

--

Alessandra Neis
omixdata

Doutoranda no Laboratório de Bioinformática e Proteômica pelo Programa de Pós-graduação em Biotecnologia da Universidade Federal de Pelotas.