Em formação

Como posso prever com precisão a função / estrutura adequada das proteínas transgênicas de diferentes espécies?

Como posso prever com precisão a função / estrutura adequada das proteínas transgênicas de diferentes espécies?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Atualmente, estou construindo um sistema sintético em E.coli e frequentemente me deparo com a necessidade de usar genes de outros procariotos distantes. Sei que eu e a maioria dos meus colegas recorremos a uma abordagem educada de tentativa e erro. Além do óbvio (eliminação de íntrons de eucariotos, otimização de códons, parentesco genético), Existe alguma maneira previsível ou semirracional de saber se um transgene para um organismo diferente funcionará adequadamente em um determinado organismo?


Olhando apenas para a sequência? Este é um problema não resolvido.

Não está claro para mim exatamente o que você está procurando, mas aqui estão algumas idéias ...

Em uma questão relativamente estreita sobre se algum gene que você conecta a uma bactéria, fermento, camundongo, cabra ou outro organismo transgênico - o rna pode não se traduzir em proteína em níveis detectáveis ​​ou em níveis altos o suficiente para obter o resultado desejado. mudar a sequência do DNA do gene para melhor transcrição / tradução é um experimental necessário comum.

Em um nível mais amplo de biologia de sistemas, outros cofatores, substratos que são necessários para a função do gene, podem ter que ser modificados no organismo hospedeiro. Essa também é uma questão em aberto.

Tudo isso pressupõe que o gene em questão codifique uma enzima para produzir uma quantidade nova ou diferente do produto metabólico do organismo hospedeiro, um alvo comum da biologia sintética. Se você estiver adicionando componentes da via de sinalização, mexendo em um mecanismo mais específico na célula, obter a função desejada pode ser muito trabalhoso. Por exemplo. se você estivesse inserindo um novo componente ribossômico ou um gene relacionado à mitose, seria difícil imaginar a priori como ele funcionaria na nova célula ou se apenas a mataria.

Além disso, Olga Troyanskaya em Princeton CS está trabalhando no problema relacionado de encontrar a função de um gene olhando para sua sequência e fazendo referência cruzada com outros dados conhecidos. A inferência funcional eletrônica é difícil, especialmente quando não temos uma descrição funcional completa do gene de qualquer organismo vivo para começar.


A formação de complexos proteína-proteína é essencial para que as proteínas desempenhem suas funções fisiológicas na célula. Mutações que impedem a formação adequada dos complexos corretos podem ter consequências graves para os processos celulares associados. Uma vez que a determinação experimental da afinidade de ligação proteína-proteína permanece difícil quando realizada em grande escala, os métodos computacionais para prever as consequências das mutações na afinidade de ligação são altamente desejáveis. Mostramos que uma função de pontuação com base em perfis de estrutura de interface coletados de interações proteína-proteína análogas no PDB é um poderoso preditor de alterações de afinidade de ligação de proteína após a mutação. Como um recurso autônomo, as diferenças entre a pontuação do perfil de interface das proteínas mutantes e do tipo selvagem têm uma precisão equivalente aos melhores potenciais de todos os átomos, apesar de serem duas ordens de magnitude mais rápidas uma vez que o perfil foi construído. Devido à sua sensibilidade única na coleta de perfis evolutivos de interações de ligação análogas e a alta velocidade de cálculo, a pontuação do perfil de interface tem vantagens adicionais como um recurso complementar para combinar com potenciais baseados na física para melhorar a precisão das abordagens de pontuação composta. Ao incorporar os potenciais derivados de sequência e de granulação grossa em nível de resíduo com a pontuação do perfil de estrutura de interface, um modelo composto foi construído por meio do treinamento de floresta aleatório, que gera um coeficiente de correlação de Pearson & gt0,8 entre a energia livre de ligação prevista e observada mudanças após mutação. Essa precisão é comparável a, ou supera na maioria dos casos, os melhores métodos atuais, mas não requer modelos atômicos completos de alta resolução das estruturas mutantes. A abordagem de criação de perfil de interface de ligação deve encontrar aplicação útil no reconhecimento de mutações de doenças humanas e estudos de design de interface de proteína.


Resumo

As quinases do receptor do tipo LRK10 (LRK10L-RLKs) estão presentes de forma ubíqua em plantas superiores, mas o conhecimento de sua expressão e função ainda é limitado. Aqui, relatamos a expressão e a análise funcional de TtdLRK10L-1, um LRK10L-RLK típico em trigo duro (Triticum turgidum L. ssp. durum) Os intrões de TtdLRK10L-1 continha vários tipos de previsão cis-elementos. Para investigar o efeito potencial destes cis-elementos na expressão e função de TtdLRK10L-1, foram preparados dois tipos de linhagens de trigo transgênicas, que expressaram uma proteína TtdLRK10L-1 marcada com GFP (TtdLRK10L-1: GFP) a partir da sequência de cDNA ou DNA genômico (gDNA) de TtdLRK10L-1 sob o promotor nativo. TtdLRK10L-1: a expressão de GFP foi regulada positivamente pelo patógeno de oídio Blumeria graminis f. sp. tritici (Bgt) em ambos os tipos de plantas transgênicas, com a escala de elevação sendo muito mais forte nas linhas de gDNA. Ambos os tipos de plantas transgênicas exibiram maior resistência a Bgt infecção em relação ao controle do tipo selvagem. Notavelmente, o Bgt a defesa ativada nas linhas de gDNA foi significativamente mais forte do que nas linhas de cDNA. Uma análise posterior revelou que um local de ligação ao fator de transcrição de MYB putativo (MYB-BS, CAGTTA) localizado em TtdLRK10L-1 o íntron I foi crítico para a expressão e função eficientes de TtdLRK10L-1 em Bgt defesa. Este MYB-BS também pode aumentar a atividade de um superpromoter amplamente utilizado em estudos de expressão gênica ectópica em plantas. Juntos, nossos resultados aprofundam a compreensão da expressão e características funcionais de LRK10L-RLKs. TtdLRK10L-1 é provavelmente útil para dissecar mais os processos moleculares subjacentes à defesa do trigo contra Bgt e para desenvolver Bgt safras de trigo resistentes.


Disponibilidade de dados

Uma descrição detalhada dos conjuntos de dados usados ​​em cada parte do estudo está na seção correspondente de Métodos Suplementares. Especificamente, o Drosófila Os conjuntos de dados epigenéticos usados ​​neste estudo foram gerados pelo consórcio modENCODE, disponível online (http://data.modencode.org). Os conjuntos de dados de epigenética de camundongos foram gerados pelo consórcio ENCODE e Roadmap Epigenomics, disponível online (https://www.encodeproject.org). Nós baixamos o Drosófila Dados 28 do STARR-seq e dados 32 do mouse FIREWACh de estudos anteriores. Os resultados dos ensaios de intensificador de camundongos transgênicos foram gerados pelo laboratório Pennacchio em LBNL. Os resultados experimentais estão resumidos nas Tabelas Suplementares 4–9, com as imagens do mouse e detalhes adicionais disponíveis no VISTA Enhancer Browser (https://enhancer.lbl.gov). Os resultados do ensaio repórter do intensificador de linha de células humanas foram gerados pelo Laboratório Sutton da Universidade de Yale. Os resultados da experiência estão resumidos na Tabela Suplementar 10. Resultados mais detalhados para cada linha celular estão disponíveis nos Dados Suplementares 1.


Problemas de saúde associados à desnutrição de micronutrientes

Os corpos humanos são complicados e precisam de dois tipos de nutrientes para o bom funcionamento e sobrevivência: micronutrientes e macronutrientes. A base dessa divisão é a quantidade de um nutriente de que o corpo necessita. Os micronutrientes são necessários em pequenas quantidades e os macronutrientes em grandes quantidades.

Os micronutrientes desempenham um papel importante no corpo humano e estão envolvidos no desenvolvimento mental e físico (White e Broadley, 2005). Muitos micronutrientes atuam como cofatores no funcionamento adequado de diferentes enzimas no corpo humano e, assim, regularizam as funções vitais e os processos metabólicos. Suas deficiências afetam adversamente mais de 2 bilhões de indivíduos, ou uma em cada três pessoas em todo o mundo (Welch e Graham, 2004). Essas deficiências ocorrem quando a ingestão e a absorção de minerais e vitaminas são insuficientes para manter a boa saúde e o desenvolvimento. Segundo a Organização Mundial da Saúde das Nações Unidas, o principal desafio nos países em desenvolvimento não é a fome, mas a má nutrição e a ausência de nutrientes essenciais para o crescimento e manutenção de funções importantes. As razões para a desnutrição são o consumo inadequado de macronutrientes, doenças e outros fatores, como segurança alimentar familiar, serviços de saúde, fatores de cuidado materno-infantil e o meio ambiente. O problema da desnutrição é ainda mais ampliado pelo aumento da população mundial, que chegará a 8 bilhões em 2030. A maior parte desse aumento (93%) ocorrerá no mundo em desenvolvimento (Cheema et al., 2008). Os micronutrientes não são cultivados no corpo e devem ser derivados da dieta. Micronutrientes essenciais incluem iodo, ferro, zinco e vitaminas (A, B e C). Embora qualquer indivíduo possa encontrar deficiência de micronutrientes, em mulheres grávidas e crianças as chances de desenvolver deficiências são máximas. Isso não se deve apenas à baixa ingestão alimentar, mas também às maiores demandas fisiológicas da gravidez e do desenvolvimento infantil. Quase 38% das mulheres grávidas e 43% das crianças em idade pré-escolar sofrem de deficiências de micronutrientes em todo o mundo. Mais de 30% da população mundial é afetada pela fome oculta. As deficiências de micronutrientes como iodo, ferro, zinco e vitamina A podem ter um efeito devastador na saúde (Cheema et al., 2008).

No corpo humano, o ferro está presente em todas as células e desempenha um papel importante em várias funções celulares. Sendo um componente chave na proteína da hemoglobina, a função mais importante do ferro é o transporte de oxigênio dos pulmões para os tecidos. Além disso, o ferro também faz parte de muitas enzimas que realizam funções vitais das células (Jimenez et al., 2015). Nos países em desenvolvimento, a deficiência de ferro é a condição mais comum e a principal causa de anemia, que afeta principalmente mulheres jovens e crianças. De acordo com a Organização Mundial da Saúde, mais de 2 bilhões de pessoas são afetadas por anemia no mundo, apresentando sintomas de cansaço e problemas no metabolismo. A anemia é a classificação clínica primária de deficiência de ferro em metade da população (Benoist et al., 2008). Cerca de 30 & # x0201340% das crianças em idade pré-escolar e mulheres grávidas sofrem de deficiências de ferro nos países desenvolvidos. O número de pessoas com deficiência de ferro nos países em desenvolvimento é ainda maior (Lucca et al., 2006). A anemia é a condição mais prevalente causada pela deficiência de ferro, no entanto, sua deficiência pode resultar em outras complicações, como fadiga, queda de cabelo, pagofagia, palidez e síndrome das pernas inquietas. A deficiência de ferro grave ou não tratada pode levar à morbidade e morte (Dosman et al., 2012 Miller, 2013).

O corpo humano requer uma variedade de minerais e vitaminas para se manter saudável. O zinco é um dos minerais essenciais de que o corpo necessita para vários processos biológicos, como divisão celular, crescimento celular e função imunológica (Maret e Sandstead, 2006). O corpo não requer uma grande quantidade de zinco, entretanto, ao contrário de outras vitaminas solúveis em gordura, o corpo humano não armazena zinco por longos períodos de tempo. Portanto, existe uma necessidade constante de uma dieta enriquecida com zinco para prevenir sua deficiência (Frassinetti et al., 2006). Em todo o mundo, cerca de 1,1 bilhão de pessoas são afetadas pela deficiência de zinco devido a uma dieta pobre (Kumssa et al., 2015). A deficiência de zinco está relacionada a muitas doenças que incluem cegueira noturna, perda de peso, acuidade gustativa prejudicada, distúrbio emocional, dermatite, cicatrização retardada, falta de apetite, alopecia e baixa imunidade (Evans, 1986).

Iodo

O iodo é um mineral essencial para a saúde humana, pois é necessário para a biossíntese dos hormônios tireoidianos triiodotironina (T3) e tiroxina (T4). Globalmente, mais de 2 bilhões de pessoas são afetadas por uma ingestão insuficiente de iodo (Delange, 1994, Zimmermann e Boelaert, 2015). Esses dois hormônios, triiodotironina (T3) e tiroxina (T4), têm um papel vital na regulação do metabolismo. A deficiência de iodo resulta na diminuição da produção desses hormônios, que eventualmente causa o aumento do tecido tireoidiano, uma condição conhecida como bócio. Em 2010, mais de 187 milhões de indivíduos eram afetados pelo bócio devido à deficiência de iodo (Greer et al., 1968 Vos et al., 2012). Além disso, a deficiência de iodo durante a gravidez pode resultar em comprometimento do neurodesenvolvimento da prole, ao passo que, durante a infância, afeta o crescimento somático e as funções cognitivas (Zimmermann e Boelaert, 2015).

Vitamina A

A vitamina A, uma vitamina solúvel em gordura, é necessária para um sistema imunológico saudável, crescimento de células epiteliais, visão, reprodução e regulação de genes (Beyer, 2010). A deficiência de vitamina A é mais prevalente entre crianças em idade pré-escolar, especialmente nos países em desenvolvimento. Afeta quase 100 & # x02013400 milhões de crianças em todo o mundo e, a cada ano, 20.000 & # x0201350.000 crianças em idade pré-escolar perdem a visão. Entre as mulheres grávidas, sua deficiência também causa cegueira noturna, mortalidade materna e outras consequências ruins na gravidez e na lactação. A vitamina A é essencial para o funcionamento normal do sistema visual, integridade epitelial, imunidade, reprodução e manutenção do crescimento e função celular. Muitos países em desenvolvimento dependem de alimentos vegetais para atender às suas necessidades de vitamina A (Simpson et al., 2011).

Vitamina B

A vitamina B, que é solúvel em água por natureza, tem oito formas: vitamina B1, B2, B3, B5, B6, B8, B9 e B12. Todas essas formas atuam como cofatores em diferentes mecanismos metabólicos, como o metabolismo de carboidratos e a síntese de proteínas. Uma vez que cada forma de vitamina B está envolvida em diferentes mecanismos, todas elas apresentam diferentes sintomas de deficiência. A vitamina B6, por exemplo, é necessária para o metabolismo de proteínas, sistema imunológico saudável, a formação de neurotransmissores e a síntese de enzimas necessárias durante a síntese de outros tipos de vitaminas. No entanto, os humanos são incapazes de sintetizá-lo e dependem das plantas. Infelizmente, a taxa de deficiências de vitamina B6 está aumentando. Alguns dos sintomas da deficiência de vitamina B6 incluem inflamação da pele, sistema imunológico fraco, fadiga e depressão (Bryan et al., 2002).

Vitamina C

A vitamina C também é uma vitamina solúvel em água e é obtida principalmente de fontes vegetais. É muito conhecido por seu papel no reforço do sistema imunológico, principalmente contra alergias devido às suas propriedades antioxidantes. Também atua como um cofator na síntese de colágeno, colesterol e certos aminoácidos (Perez-Massot et al., 2013 Maggini et al., 2017). Também está envolvido no metabolismo energético. Sua deficiência resulta em dores nas articulações, distúrbios ósseos e do tecido conjuntivo, má cicatrização e um sistema imunológico fraco (Maggini et al., 2017).

Vitamina E

A vitamina E é outra vitamina solúvel em gordura obtida de fontes de alimentos ricas em óleo, como amendoim, girassol, soja e milho. Pode ser armazenado nas reservas de gordura do corpo e, portanto, não é necessário na dieta diária. A ingestão dietética recomendada é de 15 & # x0201322,4 mg. É um antioxidante, auxilia na regulação do empacotamento lipídico da membrana, previne a agregação plaquetária, auxilia na visão e é necessário na prevenção de múltiplas doenças, como câncer e doenças cardiovasculares. A deficiência de vitamina E ocorre normalmente em pessoas com distúrbios do metabolismo da gordura e pode resultar em fraqueza muscular, anemia hemolítica, alterações do sistema imunológico e distúrbios neurológicos e oftalmológicos (Fitzpatrick et al., 2012 Rizvi et al., 2014).


Métodos

Expressão e purificação de proteínas.

Os clones de cDNA para C / EBPβ e ATF4 humanos foram obtidos da coleção de clones de mamíferos de Dharmacon. As regiões codificadoras de proteínas de comprimento total foram clonadas em vetores de expressão para animais de estimação contendo uma etiqueta de His C-terminal. As proteínas foram expressas em células competentes fornecendo tRNAs raros adicionais (RosettaTM DE3 Novagen) e purificadas usando resinas de afinidade de metal TALON (Clontech). Para p53, WT (aminoácidos 1–393) e o C-terminal truncado (∆30, aminoácidos 1–363) as proteínas p53 foram expressas e purificadas conforme descrito anteriormente (25).

SELEX-Seq e preparação da biblioteca.

EMSAs para as proteínas bZIP humanas e extração de DNA ligado foram realizadas conforme descrito anteriormente (13, 21). O DNA purificado ligado foi amplificado usando um protocolo de PCR de 15 ciclos usando polimerase Phusion (New England Biolabs) e primers salientes adicionando os locais do adaptador Illumina. Durante cada rodada, um identificador Illumina exclusivo foi adicionado em um ensaio de PCR de cinco ciclos, para 20 ciclos de PCR no total. As bibliotecas indexadas foram purificadas em gel conforme descrito anteriormente (13, 21). Os experimentos indexados R0 e R1 foram agrupados e sequenciados usando o kit de 75 ciclos de alta produção v2 em um sequenciador de desktop Illumina NEXTSeq Series. R1 SELEX-seq para a proteína MAX foi realizado conforme descrito anteriormente (22) e sequenciado com o sistema HiSeq da Illumina no New York Genome Center.

Purificação de Proteína Hox e Ensaios EMSA.

As EMSAs foram realizadas conforme descrito anteriormente (13). As proteínas foram purificadas como fusões marcadas com His a partir de células BL21. A isoforma UbxIVa foi usada, e a isoforma HM de Hth foi copurificada em complexo com a proteína Exd marcada com His. As sequências de sondas usadas no ensaio podem ser encontradas no Conjunto de dados S2. As imagens foram tiradas com um scanner Typhoon e processadas com ImageJ (NIH).

EMSA competitiva.

As reações de ligação foram realizadas com UbxIVa 50 nM e proteína Hm-Exd 200 nM. Sonda radiomarcada com 32P (2 nM) foi usada em cada reação. As concentrações das sondas concorrentes de baixa e alta afinidade variaram de 2 a 781 nM. Os dados normalizados (ligação à fração) dos EMSAs de competição (Conjunto de dados S2) foram ajustados às concentrações do competidor com uma curva sigmoidal de resposta à dose usando mínimos quadrados não lineares com as condições iniciais apropriadas (43). O IC relatado50 os erros são incertezas derivadas do ajuste. Os dados e as curvas de resposta à dose foram redimensionados de modo que o parâmetro b = 1 (compare a equação 7 da ref. 43).

E3N WT site 2 EMSA.

Sonda (6 nM) foi usada para as reações de ligação. HM-Exd foi usado a uma concentração de 500 nM. A concentração de UbxIVa variou de 100 a 500 nM para WT e abaixo das sondas não específicas a 30-100 nM para a sonda de afinidade aumentada.

Linhagens e cruzamentos de moscas.

D. melanogaster as cepas foram mantidas em condições laboratoriais padrão. Todas as construções intensificadoras foram clonadas na construção de expressão placZattB com um promotor hsp70. As construções de intensificadores transgênicos foram criadas por Rainbow Transgenic Flies, Inc. e foram integradas no local de aterrissagem attP2.

Manipulações de embriões.

Os embriões foram criados a 25 ° C e fixados e corados de acordo com os protocolos padrão. A proteína LacZ foi detectada usando um anticorpo anti-β-Gal (1: 1.000 Promega). A detecção de anticorpos primários foi feita usando anticorpos secundários marcados com corantes Alexa Fluor (1: 500 Invitrogen).

Microscopia.

Cada série de experimentos para medir os níveis de proteína foi realizada inteiramente em paralelo. Coletas de embriões, fixações, colorações e aquisições de imagens foram realizadas lado a lado em condições idênticas. As exposições confocais foram idênticas para cada série e foram definidas para não exceder o nível máximo de 255. Séries de imagens foram adquiridas em um período de 1 d para minimizar qualquer perda de sinal ou aberração. Imagens confocais foram obtidas em um microscópio Leica DM5500 Q com uma lente ACS APO 20 × / 0,60 IMM CORR e software Leica Microsystems LAS AP. As projeções de soma de pilhas confocais foram montadas, os embriões foram dimensionados para corresponder aos tamanhos, o fundo foi subtraído usando um raio de esfera rolante de 50 pixels e os perfis de plotagem de intensidade de fluorescência foram analisados ​​usando o software ImageJ (https://imagej.nih.gov/ eu j/).

Modelo NRLB de R0 Bias.

Para parametrizar os vieses na biblioteca inicial (R0) com sequências de sondagem com um eu-bp-região variável longa, maximizamos a seguinte função de verossimilhança: L = ∏ S f 0 (S) y 0 (S).

Aqui, o produto é executado em todos os 4 eu possíveis sondas S, enquanto y0(S) denota a contagem observada em R0. A frequência prevista da sonda S em R0 é dado por f 0 (S) = w 0 (S) / Z 0, onde w 0 (S) = exp (∑ ϕ β ϕ X ϕ (S)) é o peso de Boltzmann e Z 0 = ∑ S w 0 (S) é a função de partição. Nossa suposição é que os vieses R0 são devidos a um acúmulo de processos (síntese de oligômero, fita dupla de Klenow e amplificação por PCR) que são cada um invariante na tradução dentro da sonda, mas dependem do contexto da sequência local. Assumir a independência entre as posições sucessivas ao longo da sonda em cada processo leva naturalmente à forma log-linear (isto é, multiplicativa) do modelo de polarização R0 acima desta forma também é matematicamente conveniente, pois permite a programação dinâmica. O conjunto de recursos do modelo ϕ abrange todos os oligômeros de comprimento k (ou "k-mers ”). Xϕ(S) representa o número de vezes k-mer ϕ ocorre em sequência S, levando em conta k - 1 bases flanqueadoras a montante e a jusante da região variável na vertente dianteira. Z0 é calculado usando técnicas de programação dinâmica. Nós ajustamos os parâmetros do modelo βϕ maximizando a probabilidade multinomial eu(β) usando o algoritmo de memória limitada Broyden – Fletcher – Goldfarb – Shanno (L-BFGS) (44). O ótimo k é selecionado usando validação cruzada. Mais informações são fornecidas em Apêndice SI, Métodos Suplementares.

Modelo NRLB de seleção de sonda R1.

Para inferir o modelo de reconhecimento de proteína-DNA com base nas tendências vistas na biblioteca selecionada (R1), maximizamos a seguinte função de verossimilhança: L = ∏ S f 1 (S) y 1 (S).

Novamente, o produto é executado em todos os 4 eu possíveis sondas S, enquanto y1(S) denota a contagem observada em R1 (ou uma rodada posterior, se necessário). A frequência prevista da sonda S em R1 é dado por f 1 (S) = w 1 (S) / Z 1, onde w 1 (S) = f 0 (S) (∑ m ∑ v [e Δ Δ G (S v) / RT] + e β ns) aqui, a soma adicional é sobre os modos de ligação m e Z 1 = ∑ S w 1 (S), a função de partição. As visualizações v agora inclui a orientação direta e reversa e pode se estender para as regiões a montante e a jusante que flanqueiam a região variável. Enquanto o comprimento combinado da região variável e regiões flanqueadoras relevantes é ilimitado em princípio, nosso código atual usa uma representação binária eficiente de uma sequência de DNA que a limita a 32 bp. Tal como acontece com o modelo de polarização R0 do NRLB, a função de partição Z0 é avaliado usando técnicas de programação dinâmica. Ajustamos os parâmetros do modelo maximizando a probabilidade multinomial eu(β) usando L-BFGS (44). Devido à parametrização redundante do modelo, a probabilidade é invariável para mudanças nos parâmetros em certas direções (o “espaço nulo”). Ajustes de modelo diferentes podem ser comparados projetando componentes neste espaço nulo. Mais informações são fornecidas em Apêndice SI, Métodos Suplementares.

Construção do modelo NRLB.

Várias configurações foram usadas para construir os modelos NRLB usados ​​neste estudo, um resumo detalhado pode ser encontrado no Conjunto de Dados S1. Todos os ajustes de modelo NRLB individuais não são semeados e começam a partir de todos os parâmetros definidos como iguais a zero. Otimização adicional é alcançada mudando os parâmetros de energia livre de modelos convergentes em todas as posições em ± 1 bp e reequipando. Opcionalmente, os parâmetros de dinucleotídeo, inicialmente definidos para zero, são introduzidos para o melhor ajuste do modelo de mononucleotídeo. Quando vários modos de ligação são usados, apenas um único modo é aprendido inicialmente e modos adicionais são adicionados sequencialmente. As pegadas do modelo foram aumentadas até que os parâmetros adicionais não fossem informativos. Em geral, os modelos com maior probabilidade foram escolhidos.

Dados Hox.

Para monômeros Hox, pegadas de 13 pb foram consideradas responsáveis ​​por quatro bases flanqueadoras adicionais em cada lado da região do "núcleo" de 5 pb de Slattery et al. (13). Para os heterodímeros Exd-Hox, pegadas de 18 pb foram consideradas para os modos Exd-Hox para contabilizar três bases flanqueadoras adicionais em ambos os lados da região central de 12 pb definida por Slattery et al. (13). Modelos multimodo foram selecionados manualmente que continham o maior número de modos interpretáveis ​​representando monômero Exd, monômero Hox e ligação de heterodímero Exd-Hox com o menor tamanho de pegada.

Dados máximos.

Quatorze pares de bases foram escolhidos como o tamanho da pegada para se ajustar aos dados HT-SELEX e SELEX-seq, visto que parecia capturar toda a especificidade. No entanto, para ajustes em dados SMiLE-seq, os modelos com pegadas de 8 bp têm a melhor probabilidade, pois a limitação de 32 bp de nosso código impede o encaixe de mais de 1 bp nas regiões de flanco.

Dados de ATF4 e C / EBPβ.

Quatorze pares de bases foram escolhidos para o tamanho da pegada do modelo, uma vez que parecia capturar a maior parte da especificidade. Ajustes multimodo foram usados ​​no conjunto de dados C / EBPβ para remover o viés de sequência adicional.

Dados p53.

Vinte e quatro pares de bases foram escolhidos como o tamanho da pegada, pois parecia capturar toda a especificidade. Ajustes ao conjunto de dados WT p53 exigiram três modos de ligação para se ajustar aos dados e produzir um motivo viável.

Construção do modelo NRLB para dados HT-SELEX.

Os modelos NRLB foram construídos para 30 dos 35 conjuntos de dados HT-SELEX usados ​​no estudo DeepBind (30) (identificadores do arquivo europeu de nucleotídeos ERP001824 e ERP001826). Dos cinco que foram excluídos, três não tinham dados R0 (BHLHE41, CTCF e PRDM1), enquanto dois outros usaram regiões variáveis ​​maiores que 32 bp (ELK4 e HNF4A), o limite imposto por nossa implementação atual do NRLB. Os modelos de polarização R0 foram construídos para cada projeto de sonda exclusivo que usamos modelos 2-mer, pois eles tinham um desempenho de validação cruzada robusto para a maioria dos TFs (o tamanho da biblioteca R0 para HT-SELEX é muito menor do que as bibliotecas SELEX-seq). Construímos modelos de seleção com características mononucleotídicas e ligação inespecífica. Para todos os TFs, os modelos foram construídos para tamanhos de pegadas de 8 a 15 bp e uma sobreposição máxima com os flancos constantes de 0 a 5 bp (um total de 48 combinações de hiperparâmetros). Pegadas mais longas foram testadas se parecesse haver especificidade adicional fora do 15-mer (EBF1: 8–16 bp, NFE2: 8–17 bp, PAX5: 8–19 bp e ZNF143: 8–20 bp). Em sondas com uma região variável de 30 pb, a sobreposição com as regiões flanqueadoras foi restrita a 1 pb. A simetria reversa do complemento foi aplicada apenas para fatores das seguintes famílias de TF: bHLH (45), bZIP (28) e AP-2 (46) (Conjunto de dados S3). O viés de sequência frequentemente produzia modelos subótimos (compare Apêndice SI, Fig. S11UMA) e, portanto, era necessário empregar vários modos de encadernação, todos os modos compartilhavam o mesmo comprimento de pegada e status de simetria. Em alguns casos, contaminantes e / ou enriquecimento pobre forçaram o uso de dados posteriores (compare Apêndice SI, Fig. S11B) nesses casos, as rodadas posteriores foram tratadas da mesma maneira que os dados R1. Ao contrário de outros fatores, Max foi ajustado usando critérios projetados para alinhar seu modelo com aquele derivado de dados SELEX-seq (Dataset S1).

Seleção de modelos HT-SELEX.

Conforme observado por outros (30), conjuntos de dados HT-SELEX (23) podem estar sujeitos a contaminação e viés de sequência (compare Apêndice SI, Fig. S11). Consequentemente, simplesmente usar a probabilidade como o critério para selecionar o melhor modelo de modo único R1 de todas as combinações de pegada e hiperparâmetros de flanco discutidas acima frequentemente produz motivos que estão incorretos. Para automatizar a seleção de um modelo apropriado para cada TF de uma forma que não considere o desempenho da classificação nos dados ChIP-seq, decidimos pelo seguinte procedimento. Primeiro, definimos um modelo "viável" como aquele que satisfazia estes critérios: (eu) A sequência de afinidade mais alta corresponde à sequência de consenso relevante encontrada na literatura até uma incompatibilidade de 1 bp (compare Apêndice SI, Fig. S11B e conjunto de dados S3) (ii) o modelo contém pelo menos três posições consecutivas de especificidade considerável ([ΔΔGmax - ΔΔGmin]/RT & gt 3 para características de mononucleotídeo) (compare Apêndice SI, Fig. S11C) e (iii) se vários modos de ligação forem ajustados simultaneamente, apenas o modo primário (aquele com a maior afinidade relativa) é usado. Em seguida, começando com os dados R1 para um determinado TF, os modelos de modo único para cada tamanho de pegada e combinação de hiperparâmetro de flanco que foram considerados viáveis ​​foram classificados por probabilidade. Se nenhum modelo viável fosse encontrado, o número de modos de encadernação aumentava em um e o processo era repetido. Se nenhum modelo viável foi encontrado usando três modos de ligação, a rodada de enriquecimento foi incrementada em um e o número de modos de ligação foi redefinido para um. O primeiro motivo viável assim selecionado para cada TF foi usado em todas as análises subsequentes.

Visualização de modelos de dinucleotídeos.

Modelos com características de dinucleotídeo foram resumidos em termos da afinidade relativa prevista pelo modelo de todas as sequências a uma mutação de ponto único da sequência de maior afinidade e visualizada como um logotipo de energia (19), que foi criado usando a ferramenta LogoGenerator do REDUCE Suite (reduzuite.bussemakerlab.org). A sequência de maior afinidade foi determinada usando um algoritmo de programação dinâmica feito sob medida.

Comparações de taxas de sequenciamento observadas e previstas.

Essas comparações assumem que as contagens de leitura SELEX observadas seguem uma distribuição de Poisson cujo parâmetro de taxa λ (normalizado para o tamanho da biblioteca) é determinado pelo modelo em questão. Como tal, para uma determinada sonda, a taxa de sequenciação prevista e a variância são ambas λ. Na prática, há muito mais sondagens SELEX possíveis do que leituras, resultando na maioria das leituras nunca sendo observada (ou apenas uma vez), tornando impossível calcular a taxa de sequenciamento observada e a variância para cada sonda. Para comparar praticamente a taxa de sequenciamento observada, agregamos as sondas por meio de suas taxas de sequenciamento previstas no modelo λ. Calcular a taxa de sequenciação observada requer, então, o conhecimento do número de sondas e sua contagem sequenciada total em cada compartimento. Dependendo do conjunto de dados e do modelo, pequenas variações no cálculo da taxa de sequenciamento observada são necessárias. Uma vez calculado, comparar as taxas de sequenciamento observadas e previstas é trivial.

Modelos de polarização R0.

As taxas de sequenciamento previstas foram calculadas explicitamente para todo o universo de 4 16 sondas exclusivas para o modelo de polarização NRLB R0 e o método do modelo de Markov de Slattery et al. (13). Para prever essas taxas, o código Java subjacente ao pacote R / Bioconductor SELEX versão 1.6.0 foi usado para construir e executar um modelo Markov de quinta ordem em dados R0 SELEX-seq de Slattery et al. (13). A estrutura Java NRLB existente foi usada para fazer o mesmo. Uma análise posterior calculou o número de sondas observadas duas vezes (n2), uma vez (n1), ou nem um pouco (n0) em cada compartimento e comparou as proporções n1/ n0 e n2/ n0 com expectativa. Para variáveis ​​aleatórias de Poisson, o valor esperado dessas razões é igual a λ e λ 2/2, respectivamente.

Comparações de HT-SELEX R1.

Em geral, a técnica de enumeração exata usada para a análise R0 descrita acima não é viável para os projetos de biblioteca SELEX mais amplamente usados. Para evitar a necessidade de avaliar explicitamente as taxas de sequenciamento de todas as sondas, uma versão adaptativa do algoritmo Wang-Landau (47) foi usada para calcular uma densidade aproximada de estados (DOS) para algoritmos NRLB e DeepBind treinados em dados HT-SELEX. Isso nos permitiu obter estimativas imparciais do número de sondas em cada compartimento de taxa de sequenciamento. Como entradas, o algoritmo Wang-Landau usou as pontuações da sonda DeepBind brutas, a afinidade de ligação da sonda estimada apenas pelo modelo de ligação NRLB bruto ou a pontuação geral da sonda NRLB f1(S) (que inclui o modelo de polarização R0).

Predição de contagens de oligômero R1.

The R/Bioconductor package SELEX version 1.6.0 (bioconductor.org/packages/SELEX) was used to determine the observed R1 count for all 10mers. For each 10mer occurring at least 100 times, a predicted count was computed by summing the predicted frequency of all probes containing it at any offset and then multiplying by the total number of reads in R1. Observed and predicted count values were compared using a linear fit.

Scoring Genomic Sequences with NRLB.

For an NRLB model with footprint K and a target sequence of length eu, relative affinity scores were computed at all 2(euK + 1) views in the forward and reverse directions. If included, the nonspecific binding term inferred on SELEX-seq data was rescaled by explicitly considering the effective length of the DNA ligands in each technology, without adjustable parameters. Total affinity for the target sequence is the sum of all affinity contributions. ΔΔG/RT for the target sequence is the logarithm of this sum.

Exd-Hox analysis.

Dinucleotide NRLB models (18-bp, single-mode) for Exd-UbxIVa and Exd-Scr were truncated to the 12-bp central core region (13), and then used to score all possible 12-mers (compare Apêndice SI, Fig. S5).

D. melanogaster enhancer element analysis.

All relative affinity predictions were rescaled by the highest-affinity sequence in the D. melanogaster genome as predicted by the same model (compare Figs. 5 UMA e B and 6UMA e Apêndice SI, Fig. S17UMA).

Scoring Sequences with DeepBind.

DNA sequences were scored using the v0.11 scoring tool available at tools.genes.toronto.edu/deepbind/download.html and the interactive database located at tools.genes.toronto.edu/deepbind/. The raw score was used in further analyses, as this value corresponds to ΔΔG/RT. To construct the histograms required for the analysis in Apêndice SI, Figs. S13 and S15, we modified the C code of the DeepBind scoring tool to implement the Wang–Landau algorithm (47).

Comparison with MITOMI Binding Free Energy.

MITOMI ligand sequences were scored using NRLB and DeepBind models to obtain predicted ΔΔG/RT values as described above, which were then compared with MITOMI observed ΔΔG/RT values using a linear fit. Scores were shifted such that the target sequence with the highest score was set to ΔΔG/RT = 0.

ChIP-Seq Peak Classification.

NRLB and DeepBind models for 30 TFs in the HT-SELEX dataset (Dataset S3) were compared using AUC metrics. For NRLB, only the primary binding mode was used to score sequences, even if multiple binding modes had been used during the fit to HT-SELEX data. Positive and negative sets were constructed in three different ways: (eu) The “DeepBind method” used the same 500 positive and 500 shuffled negative sequences derived from ENCODE ChIP-seq datasets as (30) for each TF, (ii) the “ENCODE Top 500 method” used the same ENCODE ChIP-seq datasets as Alipanahi et al. (30) but restricted the analysis to the 500 highest peaks, and (iii) the “ENCODE Bottom 500 method” used the 500 lowest peaks among those with a significant quality value (qValue). For the last two methods, positive sequences were defined as a 101-bp window centered around the midpoint of each peak following Bell et al. (48), for each positive sequence, two corresponding negative sequences were defined as a 101-bp window centered exactly one peak’s width upstream or downstream of the peak midpoint. Since this yields 500 positive and 1,000 negative sequences, we use area under the precision-recall curve to quantify classification performance.

Quantitative Validation of HT-SELEX Models.

Quantitative comparisons for 27 of the 30 NRLB and DeepBind models used in the ChIP-seq classification task were run on R1 HT-SELEX data from the more deeply sequenced technical replicate (24) of the original dataset (23) (European Nucleotide Archive identifier PRJEB14744). The three models that were excluded did not have R1 data in this newly sequenced replicate (E2F1, ELF1, and SP1). For the comparisons, it was unknown how much of the flanking regions the DeepBind model was trained on to account for this, all probe scores were computed, including 10-bp flanking regions. In the analyses below, either the raw DeepBind probe scores or the log of the total probe binding affinity as predicted by the reduced NRLB binding model (no R0 bias) was used.

Density plots.

The predicted DOS was computed using the Wang–Landau algorithm (discussed above). The observed R0 and R1 histograms were computed by binning the observed reads using the score of the respective model.

R0/R1 enrichment.

The binned counts from the density plots were used to compute the log ratio of the R1 and R0 counts (y axis enrichment) and compared with the expected enrichment (x axis computed model score). As there is an overall scaling factor between the model scores and the observed enrichment that is unknown, the computed enrichment values are rescaled so as to minimize the root-mean-square deviation between observed and predicted enrichment.

Observed/expected sequencing rate.

The binned counts and the predicted DOS from the density plots were used to compute the observed/exected sequencing rate following the method described above. For the final, optimal (full) NRLB model comparison, the NRLB model with the R0 bias term was used to compute a probe score only over the variable region and the flank length the model was trained on.

Identification of Validated Hox Binding Sites.

We curated 96 functionally validated Hox and Exd-Hox binding sites in 21 different enhancer elements in D. melanogaster based on available reporter data from 31 studies (36) (Dataset S4). The genomic context of a binding site was determined based on the most minimal enhancer element used in the reporter assay, and genomic coordinates were standardized to release 5 (dm3) of the D. melanogaster genome using DNA sequence information reported in the studies. Partial matches to the entire validated binding site sequence were used to identify binding site offsets within the enhancer elements. To account for variation in the position of the 12-bp core binding region within NRLB models, and for experimental error in identifying the true location of the binding site within the enhancer, any model-predicted site overlapping a region extending K − 1 nucleotides up- and downstream of an experimentally validated binding site was considered a match, where K denotes the footprint of the model. Any model-predicted site outside of this extended region was considered a false-positive result.

Enhancer elements were scored using mononucleotide and dinucleotide NRLB models as described above. By default, the appropriate Hox monomer model (Apêndice SI, Fig. S8) was used unless the study stated that both Exd and Hox regulated the target if so, the appropriate Exd-Hox heterodimer model among the multiple binding modes in the model was used (Apêndice SI, Fig. S8 and Dataset S4). To account for variations in local protein concentration, all affinities within an enhancer element were normalized to the highest-affinity sequence in the particular enhancer (resulting in the normalized affinities varying between 0 and 1 for all sites in all enhancers). Potential binding windows in the element were considered functionally important if their normalized affinity was at or above a threshold T. Precision and recall were computed for all enhancer elements for all values of T between 0 and 1. A similar analysis was performed to assess the performance of sequence gazing methods. The consensus TTWATK was used for Hox sites, and TGAYNNAY was used for Exd-Hox sites the former was derived by us from bacterial one-hybrid results (37), and the latter was adopted from the method of Slattery et al. (13). Sites were deemed functional if they matched the consensus. In the absence of a thresholding parameter, only a single precision and recall pair was computed.

Reporter Assay Analysis.

The significance of potential low-affinity sites was established using Mann–Whitney você tests on the recorded intensities (Dataset S5). The cumulative affinity of the various E3N e 7H sequences used in the reporter assays was computed by summing relative affinity over all views on the E3N and 7H genomic regions as scored by the single 18-bp heterodimer mode from a multiple binding mode fit for Exd-UbxIVa (Apêndice SI, Fig. S8). The logarithm base 10 of the E3N reporter intensity values was fit to the rescaled total affinities using linear regression. o E3N e 7H reporter intensity values were also fit to a logistic model of expression saturation using nonlinear least squares parameter values were checked for significance using an F-teste.

Data and Software Availability.

SELEX data.

The SELEX-seq data for human Max, ATF4, C/EBPβ, ATF4, and C/EBPβ full-length WT p53 and ∆30 p53 generated as part of this study will be made available in Gene Expression Omnibus (GEO).

NRLB models.

The NRLB models for more than 50 TFs described here (Apêndice SI, Figs. S7, S11, and S12), along with tools for scoring any sequence or genome of interest using an NRLB model, will be made available as an R package via Bioconductor.

NRLB software.

NRLB was implemented entirely in Java. The Java source code and associated R functions for visualizing models and scoring sequences will be made available via GitHub. As designed, NRLB can be run on any machine that has Java installed, but will run slowly unless multithreading is enabled. Runtimes are also highly dependent on the number of reads and the complexity of the model a single-mode, nucleotide-only model for MAX fit to HT-SELEX data (∼63 thousand reads) can take seconds to fit and uses roughly 2 GB of RAM on a standard MacBook, while a three-mode dinucleotide model for Exd-Pb on SELEX-seq data (∼19 million reads) can take more than 10 h on a server with Dual Xeon Processors and 24 GB of RAM.


3 Results

3.1 Validation on publicly available datasets

AgMata was validated on the two datasets described above.

Table 1 shows the performance of AgMata and state-of-the-art tools on the amyl33 dataset. AgMata has an area under the ROC curve of 0.707 on this dataset. While AgMata provides continuous scores for each residue in the target protein, in order to perform a fair comparison with the state-of-the-art tools, we applied a threshold to turn it into a binary classifier. We decided to follow the same approach described in Walsh et al. (2014), setting the threshold in a way that the specificity on the amyl33 dataset is as close as possible to 85.

Método. Sen . Spe . BAC . MCC .
Aggrescan 35.37 79.26 57.32 0.13
FoldAmyloid 20.71 86.97 53.84 0.08
Tango 13.67 95.5754.62 0.14
AMYLPRED2* 39.27 84.48 61.875 0.22
MetAmyl (high specificity)* 39.05 83.14 61.10 0.19
MetAmyl (global accuracy)* 52.4670.73 61.60 0.17
FishAmyloid* 13.73 93.68 53.71 0.10
PASTA 2 (90 specificity) 30.24 90.00 60.12 0.22
PASTA 2 (85 specificity) 40.87 84.95 62.91 0.24
AgMata42.86 84.44 63.650.25
Método. Sen . Spe . BAC . MCC .
Aggrescan 35.37 79.26 57.32 0.13
FoldAmyloid 20.71 86.97 53.84 0.08
Tango 13.67 95.5754.62 0.14
AMYLPRED2* 39.27 84.48 61.875 0.22
MetAmyl (high specificity)* 39.05 83.14 61.10 0.19
MetAmyl (global accuracy)* 52.4670.73 61.60 0.17
FishAmyloid* 13.73 93.68 53.71 0.10
PASTA 2 (90 specificity) 30.24 90.00 60.12 0.22
PASTA 2 (85 specificity) 40.87 84.95 62.91 0.24
AgMata42.86 84.44 63.650.25

Observação: Methods marked with * are supervised and are expected to perform better. MCC is the Matthew’s correlation coefficient. The highest scores of every column are reported in bold.

Método. Sen . Spe . BAC . MCC .
Aggrescan 35.37 79.26 57.32 0.13
FoldAmyloid 20.71 86.97 53.84 0.08
Tango 13.67 95.5754.62 0.14
AMYLPRED2* 39.27 84.48 61.875 0.22
MetAmyl (high specificity)* 39.05 83.14 61.10 0.19
MetAmyl (global accuracy)* 52.4670.73 61.60 0.17
FishAmyloid* 13.73 93.68 53.71 0.10
PASTA 2 (90 specificity) 30.24 90.00 60.12 0.22
PASTA 2 (85 specificity) 40.87 84.95 62.91 0.24
AgMata42.86 84.44 63.650.25
Método. Sen . Spe . BAC . MCC .
Aggrescan 35.37 79.26 57.32 0.13
FoldAmyloid 20.71 86.97 53.84 0.08
Tango 13.67 95.5754.62 0.14
AMYLPRED2* 39.27 84.48 61.875 0.22
MetAmyl (high specificity)* 39.05 83.14 61.10 0.19
MetAmyl (global accuracy)* 52.4670.73 61.60 0.17
FishAmyloid* 13.73 93.68 53.71 0.10
PASTA 2 (90 specificity) 30.24 90.00 60.12 0.22
PASTA 2 (85 specificity) 40.87 84.95 62.91 0.24
AgMata42.86 84.44 63.650.25

Observação: Methods marked with * are supervised and are expected to perform better. MCC is the Matthew’s correlation coefficient. The highest scores of every column are reported in bold.

The balanced accuracy is the average of the sensitivity and specificity scores and it is not affected by the unbalancement of the dataset. The Matthew’s correlation coefficient, which best summarizes the confusion matrix ( Powers, 2011), shows a 92% increase in performance of AgMata with respect to Tango, one of the most used unsupervised métodos. AgMata even improves the quality of the predictions from 13 to 250% with respect to supervised machine learning methods (marked with a star), which have been directly trained on aggregation data. AgMata performs basically on pair with PASTA2 on this dataset.

In addition, this increase in performance is obtained without using any structural or evolutionary information. These types of information are not always available, and this improves the general applicability of AgMata ( Orlando et al., 2016). Unlike most of the available tools, AgMata also takes into consideration the full sequence at once. This is essential in the aggregation problem, since the mechanism is often driven by the interaction and cooperation of residues in distant regions of the proteins.

The improvement in performance is confirmed by the AmyProFiltered dataset ( Table 2). In this case, we could only compare with PASTA2 and Tango, as we were not able to obtain or run large scale predictions with the other predictors.

Performances of the state-of-the-art methods for aggregation prediction on the AmyProFiltered dataset

Método. Sen . Spe . Acc . Pre . MCC . AUC .
PASTA 2 32.81 84.99 76.0331.19 0.1746 0.604
Tango 17.56 85.073.85 18.8 0.0262 0.512
AgMata39.482.03 74.71 31.250.1960.641
Método. Sen . Spe . Acc . Pre . MCC . AUC .
PASTA 2 32.81 84.99 76.0331.19 0.1746 0.604
Tango 17.56 85.073.85 18.8 0.0262 0.512
AgMata39.482.03 74.71 31.250.1960.641

Observação: Sensitivity (Sen), specificity (Spe), accuracy (Acc), precision (Pre), Matthew’s correlation coefficient (MCC) and area under the ROC curve (AUC) are indicated. The thresholds for the PASTA2 and the Tango predictions have been selected in order to obtain a specificity as close to 85 as possible. The threshold used for AgMata is the one selected for the Amyl33 dataset. The highest scores of every column are reported in bold.

Performances of the state-of-the-art methods for aggregation prediction on the AmyProFiltered dataset

Método. Sen . Spe . Acc . Pre . MCC . AUC .
PASTA 2 32.81 84.99 76.0331.19 0.1746 0.604
Tango 17.56 85.073.85 18.8 0.0262 0.512
AgMata39.482.03 74.71 31.250.1960.641
Método. Sen . Spe . Acc . Pre . MCC . AUC .
PASTA 2 32.81 84.99 76.0331.19 0.1746 0.604
Tango 17.56 85.073.85 18.8 0.0262 0.512
AgMata39.482.03 74.71 31.250.1960.641

Observação: Sensitivity (Sen), specificity (Spe), accuracy (Acc), precision (Pre), Matthew’s correlation coefficient (MCC) and area under the ROC curve (AUC) are indicated. The thresholds for the PASTA2 and the Tango predictions have been selected in order to obtain a specificity as close to 85 as possible. The threshold used for AgMata is the one selected for the Amyl33 dataset. The highest scores of every column are reported in bold.

Supplementary Figure S3 shows the time required for the prediction of the aggregation propensity of a protein as a function of its length.

3.2 Insights about ataxin-3 aggregation

Human ataxin-3 is a protein involved in Machado–Joseph disease, a neurodegenerative affliction belonging to the restricted group of polyglutamine expansion disorders. A common feature of these inherited diseases is the high tendency of the protein to self-assemble and form aggregates and amyloid fibers, em vitro and in the cellular milieu. The protein is composed of different domains: the N-terminal Josephin domain (180 residues) is followed by a flexible tail containing two ubiquitin interacting motifs, the expandable polyQ stretch ( Masino et al., 2003 Scarff et al., 2013), and typically a third ubiquitin interacting motifs. The size of the polyQ segment is variable in the normal population, but when extended beyond a specific threshold (>55Q), it becomes pathogenic. While the complete mechanism of aggregation is still not fully understood, the most supported hypothesis suggests that self-assembly of the Josephin domain mediates the initial stages of aggregation of normal and polyglutamine expanded ataxin-3 ( Ellisdon et al., 2007 Gales et al., 2005 Masino et al., 2004). This initial aggregation step is concomitant with the conversion into beta-rich structures that generate a surface suitable for the formation of long homopolymers with amyloid-like characteristics ( Silva et al., 2018). The expansion of the polyglutamine fragment accelerates ataxin-3 self-assembly by increasing the mobility of a central helical region within the Josephin domain ( Lupton et al., 2015 Scarff et al., 2015). The disease-related protein forms mature and SDS-resistant fibrils, in a second aggregation step strictly dependent on the expanded polyQ tract ( Ellisdon et al., 2007 Lupton et al., 2015 Scarff et al., 2015).

Figure 1 shows the predicted beta-aggregation propensity of this protein. The regions with high propensity are situated in the N-terminal Josephin domain, with the highest scoring residues visualized in the structure of this domain, which was not used in the prediction.

The relation between ataxin-3 predicted aggregation propensity and the structure of the N-terminal Josephin domain. The highlighted amino acids correspond to the highest scoring residues in the three predicted peaks, with three amino acids shown for the broader second peak

The relation between ataxin-3 predicted aggregation propensity and the structure of the N-terminal Josephin domain. The highlighted amino acids correspond to the highest scoring residues in the three predicted peaks, with three amino acids shown for the broader second peak

Despite not using any structural or evolutionary information, AgMata identifies amino acid residues with key roles that are distant in the sequence but share the same structural environment. Interestingly, they form part of a hydrophobic patch that partially overlaps with the ubiquitin-binding surface, which contains residues previously shown to play a role in aggregation ( Masino et al., 2004). In particular, the peaks around I77 and L93 correlate well with previous reports showing the involvement of the region 73–96 in aggregation and its involvement in the formation of the fibril core ( Lupton et al., 2015 Scarff et al., 2015). Another interesting observation is that L93 and I77 have already been studied by other authors and mutagenesis experiments have been performed: mutations L93A, I77A ( Lupton et al., 2015) and the double mutation I77K/Q78K ( Masino et al., 2011) are able to reduce the pathological aggregation of human ataxin-3. In addition, the peptides corresponding to region 153–167 are able to form amyloid fibrils in isolation ( Lupton et al., 2015). Other mutations that have been experimentally investigated are W87K and S81A [ Lupton et al., 2015 Masino et al., 2011 Saunders et al., 2011)]. Figure 2 shows the differences in the predicted aggregation profile between the wild-type and some of these mutations that decrease aggregation.

AgMata predictions for mutations of ataxin-3 that have been experimentally verified as decreasing aggregation. The red line represents the aggregation propensity of the wild-type protein, while the blue represents the mutant. Plots (UMA), (E) and (F) report mutations on the isolated Josephin domain, the others (plots B, C and D) are on the full length ataxin-3 with a 64 residue Q-tail. Ataxin64Q and the Josephin domain have been aligned in the plots to allow a better comparison of the peaks. (Color version of this figure is available at Bioinformática online.)

AgMata predictions for mutations of ataxin-3 that have been experimentally verified as decreasing aggregation. The red line represents the aggregation propensity of the wild-type protein, while the blue represents the mutant. Plots (UMA), (E) and (F) report mutations on the isolated Josephin domain, the others (plots B, C and D) are on the full length ataxin-3 with a 64 residue Q-tail. Ataxin64Q and the Josephin domain have been aligned in the plots to allow a better comparison of the peaks. (Color version of this figure is available at Bioinformática online.)

AgMata predicts reduced beta-aggregation for all of them. If we use the sum of all residues as a total score, then aggregation propensity is reduced by 65, 29, 67, 32, 8 and 4% for the mutations I77K/Q78K, W87K, I77A, S81A, L93A and S81A/R103G, respectively. It is also interesting that especially the first and the third peaks (the ones closest to I77 and F163) are always strongly reduced in intensity, except for the L93A and S81A/R103G cases. L93A does show a marked decrease in the second peak, which almost completely disappears. Supplementary Figures S1 and S2 report the effect of the mutations in accordance with TANGO and PASTA2 predictions.

Supplementary Table S1 reports all the known experimentally investigated mutations retrieved in literature and the predicted overall variation in the aggregation propensity.

While most of the mutations reported to increase fibril formation are predicted to have little effect on the protein behavior, G159A significantly increase the aggregation propensity. This is also the only reported mutation to increase the SDS solubility midpoint ( Supplementary Table S1 ). There are, however, mispredicted mutations that highlight the complexity of the molecular events leading to aggregation. For example, L169H increases stabilization but AgMata assesses it as decreasing aggregation. This type of effect does not involve a change in the interaction potentials between different parts of the region, and is therefore not taken into consideration by the model. This residue is close to Leu 89, which is important for aggregation. The L169H mutant could therefore destabilize interactions and so lead to protein misfolding or increased exposure of the aggregating region. The V79A mutant is next to a flexible loop connecting to a helix hairpin, and is also predicted to be decreasing aggregation while it in fact increases it. This could be due to interactions involving the full ataxin-3 protein, as this helix hairpin is suspected to be involved in the aggregation process ( Sanfelice et al., 2014), and the V79A mutation could change its interactions. These examples highlight the complexity of the molecular processes involved in aggregation, and the importance of taking into account as many factors as possible when predicting changes in molecular behavior.


Genetic Models of Schizophrenia

Mikhail V. Pletnikov , in Progress in Brain Research , 2009

Inducible expression of mutant DISC1

We generated a mouse model of conditional and inducible expression of human mutant DISC1 using the Tet-off system ( Pletnikov et al., 2008 ). Mutant DISC1 is a hypothetical protein product of the balanced t(111) chromosomal translocation identified in a Scottish pedigree with high load of major mental disorders, including schizophrenia and major depression ( Millar et al., 2001 Ishizuka et al., 2006 Chubb et al., 2008 ). Fine mapping and cloning have identified a disrupted gene on chromosome 1, hence the name DISC1. As the breakpoint is in the middle of open reading frame, the translocation is hypothesized to produce the truncated N-terminus product, mutant DISC1 ( Millar et al., 2001 ). The identifiable mutation that is strongly associated with major mental diseases makes DISC1 and the mutant protein product interesting and attractive candidates for studying the neurobiology of psychiatric disorders ( Ross et al., 2006 ). There are several examples of how similar functional mutations have helped to shed light on the molecular mechanisms of neurodegenerative diseases, including familial forms of Parkinson’s disease and Alzheimer’s disease (e.g., Davidzon et al., 2006 Piscopo et al., 2008 ).

Recent studies have implicated DISC1 in neuronal development, neuronal migration, and synaptogenesis (Ishizuko et al., 2006 Ross et al., 2006 Camargo et al., 2007 ). They have also suggested that mutant DISC1 may interfere with the functions of normal wild-type (WT) DISC1 via dominant-negative mechanisms, leading to loss-of-function of DISC1 ( Kamiya et al., 2005 ). Thus, we generated transgenic mouse model of inducible and conditional expression of mutant human DISC1 to study the molecular mechanisms whereby this protein affects neurodevelopment.

Our inducible DISC1 mouse model is a standard bi-transgenic Tet-off system ( Fig. 1 ). In order to turn off transgene expression, DOX is added to mouse food or drinking water. As transcription of tTA is regulated by the α-calmodulin kinase II (CAMKII) promoter, expression of mutant DISC1 is present in neurons of the olfactory bulbs, cortex, hippocampus, striatum but not cerebellum. It was found that expression of mutant DISC1 starts prenatally as early as embryonic day (E) 15 as detected by western blot and E9 when assayed by RT-PCR (unpublished data). Thus, our model provides the opportunity to regulate both prenatal and postnatal expression of mutant DISC1.

The initial characterization of our model has included evaluation of the neurobehavioral effects of mutant DISC1 when its expression was present throughout the entire life span of mice. Expression of mutant DISC1 was on the mixed SJLB6CBA background ( Pletnikov et al., 2008 ). We found that expression of mutant DISC1 was associated with increased spontaneous locomotor activity in male but not female mice, decreased social interaction and increased aggressive behavior in male mice when measured in open field test, and decreased spatial recognition memory in Morris water maze in female mice only despite comparable rates of learning between mutant and control mice. These alterations are reminiscent of positive and negative symptoms, and cognitive impairments seen in schizophrenia ( Ross et al., 2006 ). No effects of mutant DISC1 were found in pre-pulse inhibition (PPI) of the acoustic startle and novelty-induced activity in open field.

These behavioral alterations were accompanied by enlargement of the lateral ventricle, the most consistent structural pathology seen in schizophrenic patients ( Vita et al., 2006 Pagsberg et al., 2007 ). Ventricular enlargement can be partly explained by attenuated dendritic arborization found in primary cortical neurons derived from mutant DISC1 embryos, in line with human postmortem studies, showing decreased dendritic length and dendritic arborization in certain cortical areas ( Glantz et al., 2000 ). Our biochemical assays showed that the effects of mutant DISC1 may be mediated by binding mutant DISC1 to endogenous mouse Disc1, producing decreased levels of mouse Disc1 and its interacting partner, Lis1, which have been implicated in the molecular mechanisms of neuronal maturation ( Morris et al., 2003 Ozeki et al., 2003 ).

The main drawback of the study is that mutant DISC1 was expressed steadily throughout the entire life. Thus, the contribution of prenatal vs. postnatal periods remained unclear. Our recent experiments with regulation of expression of mutant DISC1 have demonstrated that prenatal and postnatal expression selectively affected different neurobehavioral phenotypes, suggesting the effects of mutant DISC1 may vary across neurodevelopment (manuscript in revision).


Resumo

The prediction of interresidue contacts and distances from coevolutionary data using deep learning has considerably advanced protein structure prediction. Here, we build on these advances by developing a deep residual network for predicting interresidue orientations, in addition to distances, and a Rosetta-constrained energy-minimization protocol for rapidly and accurately generating structure models guided by these restraints. In benchmark tests on 13th Community-Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction (CASP13)- and Continuous Automated Model Evaluation (CAMEO)-derived sets, the method outperforms all previously described structure-prediction methods. Although trained entirely on native proteins, the network consistently assigns higher probability to de novo-designed proteins, identifying the key fold-determining residues and providing an independent quantitative measure of the “ideality” of a protein structure. The method promises to be useful for a broad range of protein structure prediction and design problems.

Clear progress in protein structure prediction was evident in the recent 13th Community-Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction (CASP13) structure-prediction challenge (1). Multiple groups showed that application of deep learning-based methods to the protein structure-prediction problem makes it possible to generate fold-level accuracy models of proteins lacking homologs in the Protein Data Bank (PDB) (2) directly from multiple sequence alignments (MSAs) (3 ⇓ ⇓ –6). In particular, AlphaFold (A7D) from DeepMind (7) and Xu with RaptorX (4) showed that distances between residues (not just the presence or absence of a contact) could be accurately predicted by deep learning on residue-coevolution data. The 3 top-performing groups (A7D, Zhang-Server, and RaptorX) all used deep residual-convolutional networks with dilation, with input coevolutionary coupling features derived from MSAs, either using pseudolikelihood or by covariance matrix inversion. Because these deep learning-based methods produce more complete and accurate predicted distance information, 3-dimensional (3D) structures can be generated by direct optimization. For example, Xu (4) used Crystallography and NMR System (CNS) (8) and the AlphaFold group (7) used gradient descent following conversion of the predicted distances into smooth restraints. Progress was also evident in protein structure refinement at CASP13 using energy-guided refinement (9 ⇓ –11).

In this work, we integrate and build upon the CASP13 advances. Through extension of deep learning-based prediction to interresidue orientations in addition to distances, and the development of a Rosetta-based optimization method that supplements the predicted restraints with components of the Rosetta energy function, we show that still more accurate models can be generated. We also explore applications of the model to the protein design problem. To facilitate further development in this rapidly moving field, we make all of the codes for the improved method available.


Resultados e discussão

Experiment setup

Given an unknown sequence, the objective is to determine if the sequence is an adaptor protein and thus this can be treated as a supervised learning classification. As a representation, we defined adaptor protein as positive data with label “Positive”, and otherwise, non-adaptor protein as negative data with label “Negative”. We applied 5-fold cross-validation method in our training dataset with hyper-parameter optimization techniques. Finally, the independent dataset was used to evaluate the correctness as well as overfitting in our model.

Our proposed RNN model was implemented using PyTorch library with a Titan Xp GPU. We trained the RNN model from scratch using Adam optimizer for 30 epochs. The learning rate was fixed to 1×10 −4 in the entire training process. Due to the significant imbalance in the sample numbers of adaptor proteins and non-adaptor proteins in the dataset, we adopted weighted binary cross-entropy loss in the training process. The weighting factors were the inverse class frequency.

Sensitivity, specificity, accuracy, and MCC (Matthew’s correlation coefficient) were used to measure the prediction performance. TP, FP, TN, FN are true positives, false positives, true negatives, and false negatives, respectively.


Assista o vídeo: Os Organismos Geneticamente Modificados (Agosto 2022).