Em formação

2.S: Ajustando Modelos Estatísticos aos Dados (Resumo) - Biologia

2.S: Ajustando Modelos Estatísticos aos Dados (Resumo) - Biologia


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

1: Presumo aqui que você tem pouco interesse em outros organismos além dos lagartos.

voltar ao texto principal

2: E, muitas vezes, conclui que apenas "precisamos de mais dados" para obter a resposta que desejamos.

voltar ao texto principal

3: Especialmente em campos como genômica, onde testes múltiplos e correções massivas de Bonferroni são comuns; só podemos nos maravilhar com as legiões de erros do tipo II que são cometidos em tais circunstâncias.

voltar ao texto principal

Referências

Akaike, H. 1998. Teoria da informação e uma extensão do princípio de máxima verossimilhança. Pp. 199-213 no E. Parzen, K. Tanabe e G. Kitagawa, eds. Artigos selecionados de Hirotugu Akaike. Springer New York, New York, NY.

Burnham, K. P. e D. R. Anderson. 2003. Seleção de modelo e inferência multimodelo: Uma abordagem teórica da informação prática. Springer Science & Business Media.

Edwards, A. W. F. 1992. Likelihood. Johns Hopkins University Press, Baltimore.

Gelman, A., J. B. Carlin, H. S. Stern, D. Dunson, A. Vehtari e D. Rubin. 2013. Análise de dados bayesiana, terceira edição. Chapman; Hall / CRC.

Neal, R. 2008. A média harmônica da verossimilhança: o pior método de Monte Carlo de todos os tempos. Blog de Radford Neal.

Newton, M. A. e A. E. Raftery. 1994. Inferência bayesiana aproximada com o bootstrap de probabilidade ponderada. J. Stat. Soc. Série B Stat. Methodol. 56: 3–48.

Perneger, T. V. O que há de errado com os ajustes de Bonferroni. BMJ 316: 1236–1238.

Perrakis, K., I. Ntzoufras e E. G. Tsionas. 2014. Sobre o uso de posteriores marginais na estimativa de verossimilhança marginal via amostragem de importância. Comput. Data Anal. 77: 54–69.

Posada, D. e K. A. Crandall. MODELTEST: Testando o modelo de substituição de DNA. Bioinformatics 14: 817–818.

Xie, W., P. O. Lewis, Y. Fan, L. Kuo e M.-H. Chen. 2011. Aprimorando a estimativa de verossimilhança marginal para a seleção do modelo filogenético Bayesiano. Syst. Biol. 60: 150–160.


Introdução

Selecionar a melhor equação para se ajustar aos nossos dados experimentais pode exigir alguma experiência. O que devemos fazer quando não temos informações sobre a literatura? Não somos matemáticos e nossa abordagem para a construção de modelos é frequentemente empírica. Ou seja, olhamos para os processos biológicos, traçamos os dados e observamos que eles seguem um certo padrão. Por exemplo, poderíamos ter observado que a resposta de uma espécie de planta à dose de alguma substância tóxica é em forma de S. Portanto, precisamos de uma função em forma de S para ajustar aos nossos dados, mas ... como selecionamos a equação certa?

Achei que seria útil listar as equações mais difundidas, junto com suas propriedades principais e o significado biológico de seus parâmetros. Claro, não devo esquecer que estamos interessados ​​nessas equações porque queremos ajustá-las! Portanto, também darei as funções R correspondentes, pelo menos, darei as que uso com mais frequência.

Um problema com a regressão não linear é que ela funciona iterativamente: precisamos fornecer estimativas iniciais para os parâmetros do modelo e o algoritmo os ajusta passo a passo, até que (esperançosamente) convirja na solução de mínimos quadrados aproximados. Pela minha experiência, fornecer palpites iniciais pode ser problemático. Portanto, é muito conveniente usar funções R, incluindo as rotinas de autoinicialização apropriadas, que podem simplificar muito o processo de adaptação.

Vários autoiniciadores podem ser encontrados no pacote ‘drc’, que pode ser usado com o recurso de regressão não linear ‘drm ()’. Outros auto-iniciadores são fornecidos no pacote 'nlme', para serem usados ​​com os recursos de regressão não linear 'nls ()', 'nlsList ()' e 'nlme ()'. Eu adicionei alguns auto-iniciadores no pacote ‘aomisc’. Ao fazer este trabalho, eu me dei a seguinte 'regra': se uma equação se chama 'eqName', 'eqName.fun' é a codificação da função R para essa equação (que podemos usar, por exemplo, para plotar), 'NLS .eqName 'é o autoinicializador para' nls () 'e' DRC.eqName 'é o autoinicializador para' drm () '.

Neste tutorial, usaremos alguns dos conjuntos de dados disponíveis no pacote ‘aomisc’.

Antes de iniciar este tutorial, vamos carregar os pacotes necessários.


Teste de qui-quadrado de adequação

Você usa o teste qui-quadrado de adequação quando tem uma variável nominal, deseja ver se o número de observações em cada categoria se encaixa em uma expectativa teórica e se o tamanho da amostra é grande.

Quando usar

Use o teste qui-quadrado de adequação quando você tiver uma variável nominal com dois ou mais valores (como flores vermelhas, rosa e brancas). Você compara as contagens observadas de observações em cada categoria com as contagens esperadas, que você calcula usando algum tipo de expectativa teórica (como uma proporção de sexo de 1: 1 ou uma proporção de 1: 2: 1 em um cruzamento genético).

Se o número esperado de observações em qualquer categoria for muito pequeno, o teste do qui-quadrado pode fornecer resultados imprecisos e, em vez disso, você deve usar um teste exato. Consulte a página da web sobre tamanhos de amostra pequenos para uma discussão sobre o que significa "pequeno".

O teste do qui-quadrado de adequação é uma alternativa ao G& ndashtest de goodness-of-fit cada um desses testes tem algumas vantagens e algumas desvantagens, e os resultados dos dois testes são geralmente muito semelhantes. Você deve ler a seção "Qui-quadrado vs. G& ndashtest "próximo ao final desta página, escolha qui-quadrado ou G& ndashtest, mantenha essa escolha pelo resto de sua vida. Muitas das informações e exemplos nesta página são as mesmas do G& ndashtest página, então, depois de decidir qual teste é melhor para você, você só precisa ler um.

Hipótese nula

A hipótese estatística nula é que o número de observações em cada categoria é igual ao previsto por uma teoria biológica, e a hipótese alternativa é que os números observados são diferentes do esperado. A hipótese nula é geralmente uma hipótese extrínseca, onde você sabia as proporções esperadas antes de fazer o experimento. Os exemplos incluem uma proporção de sexo de 1: 1 ou uma proporção de 1: 2: 1 em um cruzamento genético. Outro exemplo seria olhar para uma área de costa que tinha 59% da área coberta por areia, 28% lama e 13% rochas se você estivesse investigando onde as gaivotas gostam de ficar, sua hipótese nula seria que 59% das gaivotas estavam em pé na areia, 28% na lama e 13% na rocha.

Em algumas situações, você tem uma hipótese intrínseca. Esta é uma hipótese nula em que você calcula as proporções esperadas depois de fazer o experimento, usando algumas das informações dos dados. O exemplo mais conhecido de uma hipótese intrínseca são as proporções de Hardy-Weinberg da genética populacional: se a frequência de um alelo em uma população é p e o outro alelo é q, a hipótese nula é que as frequências esperadas dos três genótipos são p 2 , 2pq, e q 2 Esta é uma hipótese intrínseca, porque você estima p e q a partir dos dados depois de coletar os dados, você não pode prever p e q antes do experimento.

Como funciona o teste

Ao contrário do teste exato de adequação, o teste do qui-quadrado não calcula diretamente a probabilidade de obter os resultados observados ou algo mais extremo. Em vez disso, como quase todos os testes estatísticos, o teste do qui-quadrado tem uma etapa intermediária em que usa os dados para calcular uma estatística de teste que mede a que distância os dados observados estão da expectativa nula. Em seguida, você usa uma relação matemática, neste caso a distribuição qui-quadrado, para estimar a probabilidade de obter esse valor da estatística de teste.

Você calcula a estatística de teste tomando um número observado (O), subtraindo o número esperado (E) e, em seguida, quadrando essa diferença. Quanto maior for o desvio da hipótese nula, maior será a diferença entre o observado e o esperado. Quadrar as diferenças torna todas elas positivas. Em seguida, você divide cada diferença pelo número esperado e soma essas diferenças padronizadas. A estatística de teste é aproximadamente igual à razão de log-verossimilhança usada no G& ndashtest. É convencionalmente chamada de estatística "qui-quadrado", embora seja um tanto confusa porque é apenas uma das muitas estatísticas de teste que seguem a distribuição teórica do qui-quadrado. A equação é

Como acontece com a maioria das estatísticas de teste, quanto maior a diferença entre o observado e o esperado, maior se torna a estatística de teste. Para dar um exemplo, digamos que sua hipótese nula é uma proporção de 3: 1 de asas lisas para asas enrugadas na prole de um grupo de Drosófila cruzes. Você observa 770 moscas com asas lisas e 230 moscas com asas enrugadas, os valores esperados são 750 moscas de asas lisas e 250 moscas de asas enrugadas. Inserindo esses números na equação, o valor do qui-quadrado é 2,13. Se você tivesse observado 760 moscas de asas lisas e 240 moscas de asas enrugadas, o que está mais próximo da hipótese nula, seu valor qui-quadrado teria sido menor, 0,53 se você tivesse observado 800 moscas de asas lisas e 200 de asas enrugadas moscas, que está mais longe da hipótese nula, seu valor qui-quadrado teria sido 13,33.

A distribuição da estatística de teste sob a hipótese nula é aproximadamente a mesma que a distribuição qui-quadrado teórica. Isso significa que, depois de saber o valor do qui-quadrado e o número de graus de liberdade, você pode calcular a probabilidade de obter esse valor do qui-quadrado usando a distribuição do qui-quadrado. O número de graus de liberdade é o número de categorias menos um, portanto, para nosso exemplo, há um grau de liberdade. Usando a função CHIDIST em uma planilha, você insere = CHIDIST (2,13, 1) e calcula que a probabilidade de obter um valor qui-quadrado de 2,13 com um grau de liberdade é P=0.144.

A forma da distribuição do qui-quadrado depende do número de graus de liberdade. Para uma hipótese nula extrínseca (a situação muito mais comum, em que você conhece as proporções previstas pela hipótese nula antes de coletar os dados), o número de graus de liberdade é simplesmente o número de valores da variável, menos um. Portanto, se você estiver testando uma hipótese nula de uma razão sexual de 1: 1, há dois valores possíveis (masculino e feminino) e, portanto, um grau de liberdade. Isso ocorre porque, uma vez que você sabe quantos homens do total são mulheres (um número que é "livre" para variar de 0 ao tamanho da amostra), o número de homens é determinado. Se houver três valores da variável (como vermelho, rosa e branco), haverá dois graus de liberdade e assim por diante.

Uma hipótese nula intrínseca é aquela em que você estima um ou mais parâmetros dos dados para obter os números para sua hipótese nula. Conforme descrito acima, um exemplo são as proporções de Hardy-Weinberg. Para uma hipótese nula intrínseca, o número de graus de liberdade é calculado tomando o número de valores da variável, subtraindo 1 para cada parâmetro estimado dos dados e, em seguida, subtraindo mais 1. Assim, para as proporções de Hardy-Weinberg com dois alelos e três genótipos, existem três valores da variável (os três genótipos) que você subtrai um para o parâmetro estimado dos dados (a frequência do alelo, p) e então você subtrai mais um, resultando em um grau de liberdade. Existem outras questões estatísticas envolvidas no teste de adequação às expectativas de Hardy-Weinberg, portanto, se você precisar fazer isso, consulte Engels (2009) e as referências mais antigas que ele cita.

Teste post-hoc

Se houver mais de duas categorias e você quiser descobrir quais são significativamente diferentes de sua expectativa nula, você pode usar o mesmo método de teste de cada categoria versus a soma de todas as outras categorias, com a correção de Bonferroni, como eu descrevo para o teste exato. Você usa testes de qui-quadrado para cada categoria, é claro.

Premissas

O qui-quadrado de adequação pressupõe independência, conforme descrito para o teste exato.

Exemplos: hipótese extrínseca

Crossbills europeus (Loxia curvirostra) têm a ponta do bico superior à direita ou à esquerda do bico inferior, o que os ajuda a extrair as sementes das pinhas. Alguns levantaram a hipótese de que a seleção dependente da frequência manteria o número de pássaros fatiados à direita e à esquerda na proporção de 1: 1. Groth (1992) observou 1.752 crossbills direto e 1.895 crossbills esquerdo.

Calcule a frequência esperada de pássaros de bico direito multiplicando o tamanho total da amostra (3647) pela proporção esperada (0,5) para produzir 1823,5. Faça o mesmo para pássaros de bico esquerdo. O número de graus de liberdade quando um para uma hipótese extrínseca é o número de classes menos um. Nesse caso, existem duas classes (direita e esquerda), portanto, há um grau de liberdade.

O resultado é qui-quadrado = 5,61, 1 d.f., P= 0,018, indicando que você pode rejeitar a hipótese nula de que há significativamente mais faturas cruzadas cobradas à esquerda do que à direita.

Shivrain et al. (2006) cruzaram arroz de campo aberto, resistente ao herbicida imazethapyr, com arroz vermelho, suscetível ao imazethapyr. Eles então cruzaram a prole híbrida e examinaram o F2 geração, onde encontraram 772 plantas resistentes, 1611 plantas moderadamente resistentes e 737 plantas suscetíveis. Se a resistência for controlada por um único gene com dois alelos co-dominantes, você esperaria uma proporção de 1: 2: 1. Comparando os números observados com a proporção de 1: 2: 1, o valor do qui-quadrado é 4,12. Existem dois graus de liberdade (as três categorias, menos um), então o P o valor é 0,127, não há diferença significativa em relação a uma proporção de 1: 2: 1.

Pica-pau-de-peito-ruivo fêmea, Sitta canadensis.

Mannan e Meslow (1984) estudaram o comportamento de forrageamento de pássaros em uma floresta no Oregon. Em uma floresta manejada, 54% do volume do dossel era Douglas fir, 40% era pinheiro ponderosa, 5% era grand fir e 1% era lariço ocidental. Eles fizeram 156 observações de forrageamento por nuthatches red-breasted 70 observações (45% do total) em Douglas fir, 79 (51%) em ponderosa pine, 3 (2%) em grand fir, e 4 (3%) em western lariço. A hipótese nula biológica é que os pássaros forrageiam aleatoriamente, sem levar em conta que espécie de árvore eles estão na hipótese nula estatística é que as proporções dos eventos de forrageamento são iguais às proporções do volume do dossel. A diferença nas proporções é significativa (qui-quadrado = 13,59, 3 d.f., P=0.0035).

Os números esperados neste exemplo são muito pequenos, então seria melhor analisá-los com um teste exato. Estou deixando aqui porque é um bom exemplo de uma hipótese extrínseca que vem da medição de algo (volume do dossel, neste caso), não uma teoria matemática que tive dificuldade em encontrar bons exemplos disso.

Exemplo: hipótese intrínseca

McDonald (1989) examinou a variação no Mpi locus no crustáceo anfípode Platorchestia platensis coletados em um único local em Long Island, Nova York. Havia dois alelos, Mpi 90 e Mpi 100 e as frequências de genótipo em amostras de várias datas agrupadas foram 1203 Mpi 90/90 , 2919 Mpi 90/100 e 1678 Mpi 100/100. A estimativa do Mpi A proporção de 90 alelos dos dados é 5325/11600 = 0,459. Usando a fórmula de Hardy-Weinberg e esta proporção de alelos estimada, as proporções de genótipo esperadas são 0,211 Mpi 90/90 , 0.497 Mpi 90/100 e 0,293 Mpi 100/100. Existem três categorias (os três genótipos) e um parâmetro estimado a partir dos dados (o Mpi Proporção do alelo de 90), então há um grau de liberdade. O resultado é qui-quadrado = 1,08, 1 d.f., P= 0,299, o que não é significativo. Você não pode rejeitar a hipótese nula de que os dados se ajustam às proporções esperadas de Hardy-Weinberg.

Representando graficamente os resultados

Se houver apenas dois valores da variável nominal, você não deve exibir o resultado em um gráfico, pois seria um gráfico de barras com apenas uma barra. Em vez disso, basta relatar a proporção, por exemplo, Groth (1992) encontrou 52,0% de crossbills com cobrança à esquerda.

Com mais de dois valores da variável nominal, você geralmente deve apresentar os resultados de um teste de adequação em uma tabela de proporções observadas e esperadas. Se os valores esperados forem óbvios (como 50%) ou facilmente calculados a partir dos dados (como proporções de Hardy e ndashWeinberg), você pode omitir os números esperados de sua tabela. Para uma apresentação, você provavelmente vai querer um gráfico que mostre as proporções observadas e esperadas, para dar uma impressão visual da distância entre elas. Você deve usar um gráfico de barras para as proporções observadas; o esperado pode ser mostrado com uma linha tracejada horizontal ou com barras de um padrão diferente.

Se você deseja adicionar barras de erro ao gráfico, deve usar intervalos de confiança para uma proporção. Observe que os intervalos de confiança não serão simétricos e isso será particularmente óbvio se a proporção for próxima de 0 ou 1.

Uso de habitat no nuthatch de peito vermelho.. Barras cinzas são as porcentagens observadas de eventos de forrageamento em cada espécie de árvore, com intervalos de confiança de 95%, as barras pretas são as porcentagens esperadas.

Algumas pessoas usam um "gráfico de barras empilhadas" para mostrar as proporções, especialmente se houver mais de duas categorias. No entanto, pode ser difícil comparar os tamanhos dos valores observados e esperados para as categorias do meio, uma vez que seus topos e fundos estão em níveis diferentes, portanto, não o recomendo.

Testes semelhantes

Você usa o teste de independência do qui-quadrado para duas variáveis ​​nominais, não uma.

Existem vários testes que usam estatísticas qui-quadrado. O descrito aqui é formalmente conhecido como qui-quadrado de Pearson. É de longe o teste do qui-quadrado mais comum, por isso é geralmente chamado de teste do qui-quadrado.

Você pode escolher entre três testes de adequação: o teste exato de adequação, o G& ndashtest de goodness-of-fit, ou o teste qui-quadrado de good-fit. Para pequenos valores dos números esperados, o qui-quadrado e G& ndashtests são imprecisos, porque as distribuições das estatísticas de teste não se ajustam muito bem à distribuição qui-quadrado.

A regra geral é que você deve usar o teste exato quando o menor valor esperado for menor que 5, e o qui-quadrado e G& ndashtests são precisos o suficiente para valores esperados maiores.Essa regra prática data dos tempos antigos, quando as pessoas tinham de fazer cálculos estatísticos à mão, e os cálculos para o teste exato eram muito tediosos e deviam ser evitados, se possível. Hoje em dia, os computadores tornam tão fácil fazer o teste exato quanto o qui-quadrado computacionalmente mais simples ou G& ndashtest, a menos que o tamanho da amostra seja tão grande que nem mesmo os computadores possam lidar com isso. Eu recomendo que você use o teste exato quando o tamanho total da amostra for menor que 1000. Com tamanhos de amostra entre 50 e 1000 e valores esperados maiores que 5, geralmente não faz uma grande diferença qual teste você usa, então você não deve criticar alguém por usar o qui-quadrado ou G& ndashtest para experimentos em que recomendo o teste exato. Consulte a página da web sobre tamanhos de amostra pequenos para uma discussão mais aprofundada.

Qui-quadrado vs. G& ndashtest

O teste do qui-quadrado dá aproximadamente os mesmos resultados que o G& ndashtest. Ao contrário do teste qui-quadrado, os valores G são aditivos, você pode conduzir um experimento elaborado no qual os valores G de diferentes partes do experimento somam um valor G geral para todo o experimento. Os valores do qui-quadrado se aproximam disso, mas os valores do qui-quadrado das subpartes de um experimento não somam exatamente o valor do qui-quadrado de todo o experimento. G& ndashtests são uma subclasse de testes de razão de verossimilhança, uma categoria geral de testes que tem muitos usos para testar o ajuste de dados a modelos matemáticos. As versões mais elaboradas de testes de razão de verossimilhança não têm testes equivalentes usando a estatística qui-quadrado de Pearson. A capacidade de fazer análises estatísticas mais elaboradas é uma das razões pelas quais algumas pessoas preferem o G& ndashtest, mesmo para designs mais simples. Por outro lado, o teste do qui-quadrado é mais familiar para mais pessoas e é sempre uma boa ideia usar estatísticas com as quais seus leitores estejam familiarizados, quando possível. Você pode consultar a literatura da sua área e usar a que for mais comumente usada.

Claro que voce deveria não analise seus dados com os G& ndashtest e o teste do qui-quadrado e, em seguida, escolha o que fornecer o resultado mais interessante que seria trapaça. Sempre que você tentar mais de uma técnica estatística e usar apenas aquela que der o menor P valor, você está aumentando sua chance de um falso positivo.

Como fazer o teste

Planilha

Eu criei uma planilha para o teste qui-quadrado de adequação. É amplamente autoexplicativo. Ele irá calcular os graus de liberdade para você se você estiver usando uma hipótese nula extrínseca, se você estiver usando uma hipótese intrínseca, você deve inserir os graus de liberdade na planilha.

Paginas web

Existem páginas da web que farão o teste do qui-quadrado aqui e aqui. Nenhuma dessas páginas da web permite definir os graus de liberdade com o valor apropriado para testar uma hipótese nula intrínseca.

Aqui está um programa SAS que usa PROC FREQ para um teste de qui-quadrado. Ele usa os dados da ervilha de Mendel de cima. O "WEIGHT count" diz ao SAS que a variável "count" é o número de vezes que cada valor de "textura" foi observado. A opção ZEROS diz para incluir observações com contagens de zero, por exemplo, se você tiver 20 ervilhas lisas e 0 ervilhas amassadas, não faz mal incluir sempre a opção ZEROS. CHISQ diz ao SAS para fazer um teste de qui-quadrado e TESTP = (75 25) informa as porcentagens esperadas. As porcentagens esperadas devem somar 100. Você deve fornecer as porcentagens esperadas em ordem alfabética: como "liso" vem antes de "enrugado", você fornece as frequências esperadas para 75% liso e 25% enrugado.

Aqui está um programa SAS que usa PROC FREQ para um teste de qui-quadrado em dados brutos, onde você listou cada observação individual em vez de contá-las você mesmo. Usei três pontos para indicar que não mostrei o conjunto de dados completo.

A saída inclui o seguinte:

Você relataria isso como "qui-quadrado = 0,3453, 1 d.f., P=0.5568."

Análise de poder

Para fazer uma análise de potência usando o programa G * Power, escolha "Testes de adequação: tabelas de contingência" no menu Teste estatístico e, em seguida, escolha "Testes qui-quadrado" no menu Família de teste. Para calcular o tamanho do efeito, clique no botão Determinar e insira as proporções da hipótese nula na primeira coluna e as proporções que você espera ver na segunda coluna. Em seguida, clique no botão Calculate and Transfer to Main Window. Defina seu alfa e potência e certifique-se de definir os graus de liberdade (Df) para uma hipótese nula extrínseca, que será o número de linhas menos um.

Como exemplo, digamos que você deseja fazer um cruzamento genético de snapdragons com uma proporção esperada de 1: 2: 1 e deseja ser capaz de detectar um padrão com 5% a mais de heterozigotos do que o esperado. Insira 0,25, 0,50 e 0,25 na primeira coluna, insira 0,225, 0,55 e 0,225 na segunda coluna, clique em Calcular e transferir para a janela principal, insira 0,05 para alfa, 0,80 para potência e 2 para graus de liberdade. Se você fez isso corretamente, seu resultado deve ser um tamanho de amostra total de 964.

Referências

Engels, W.R. 2009. Testes exatos para proporções de Hardy-Weinberg. Genetics 183: 1431-1441.

Groth, J.G. 1992. Mais informações sobre a genética do cruzamento de contas em crossbills. Auk 109: 383–385.

Mannan, R.W. e E.C. Meslow. 1984. Populações de pássaros e características da vegetação em florestas manejadas e antigas, nordeste do Oregon. Journal of Wildlife Management 48: 1219-1238.

McDonald, J.H. 1989. Análise de componentes de seleção do Mpi locus no anfípode Platorchestia platensis. Heredity 62: 243-249.

Shivrain, V.K., N.R. Burgos, K.A.K. Moldenhauer, R.W. McNew e T.L. Baldwin. 2006. Caracterização de cruzamentos espontâneos entre arroz Clearfield (Oryza sativa) e arroz vermelho (Oryza sativa) Weed Technology 20: 576-584.

& lArr Tópico anterior | Próximo tópico & rArr Índice

Esta página foi revisada pela última vez em 20 de julho de 2015. Seu endereço é http://www.biostathandbook.com/chigof.html. Pode ser citado como:
McDonald, J.H. 2014. Handbook of Biological Statistics (3rd ed.). Sparky House Publishing, Baltimore, Maryland. Esta página da web contém o conteúdo das páginas 45-52 na versão impressa.

& copy2014 por John H. McDonald. Você provavelmente pode fazer o que quiser com este conteúdo, consulte a página de permissões para obter detalhes.


Cinética Bioquímica¶

As propriedades das vias metabólicas de um organismo e as reações bioquímicas (cinética) subjacentes (mediadas por enzimas) são indiscutivelmente seus "traços" mais fundamentais, porque esses impulsionam todos os traços de "desempenho", da fotossíntese e respiração, ao movimento e taxa de crescimento.

O modelo Michaelis-Menten é amplamente usado para quantificar dados de cinética de reação e estimar parâmetros bioquímicos chave. Este modelo relaciona a taxa de reação bioquímica ( (V )) (taxa de formação do produto da reação), à concentração do substrato ( (S )):

(V _ < max> ) é a taxa máxima que pode ser alcançada no sistema de reação, que acontece na concentração de substrato de saturação (conforme (S ) fica muito grande), e

(K_M ) é a constante de Michaelis ou meia-saturação, definida como a concentração de substrato na qual a taxa de reação é a metade de (V _ < max> ). Este parâmetro controla a forma geral da curva, ou seja, se (V ) se aproxima de (V _ < max> ) lenta ou rapidamente. Em reações catalisadas por enzima, ele mede quão fracamente o substrato se liga à enzima: grande (K_M ) indica ligação frouxa da enzima ao substrato, pequeno (K_M ) indica ligação forte (tem unidades da concentração de substrato, (S )).

Reações bioquímicas envolvendo um único substrato são freqüentemente bem ajustadas pela cinética de Michaelis-Menten.

O modelo Michaelis-Menten.

Vamos ajustar o modelo Michaelis-Menten a alguns dados.

Gerando dados¶

Em vez de usar dados experimentais reais, vamos realmente gerar alguns “dados” porque assim sabemos exatamente quais são os erros nos dados. Você também pode importar e usar seu próprio conjunto de dados para as etapas de adaptação mais abaixo.

Podemos gerar alguns dados da seguinte maneira.

Primeiro, gere uma sequência de concentrações de substrato de 1 a 50 em saltos de 5, usando seq () (consulte a documentação para seq ()).

  1. 1
  2. 6
  3. 11
  4. 16
  5. 21
  6. 26
  7. 31
  8. 36
  9. 41
  10. 46

Observe que, como geramos valores apenas em intervalos de, haverá 50/5 = 10 valores de “substrato”.

Agora gere uma resposta de velocidade de reação Michaelis-Menten com V_max = 12,5 e K_M = 7,1:

Observe que nossa escolha de (V_ < max> = 12,5 ) e (K_M = 7,1 ) é completamente arbitrária. Desde que tenhamos certeza de que (V_ < max> & gt 0 ), (K_H & gt 0 ) e (K_M ) está bem dentro da metade inferior da faixa de concentrações de substrato (0-50 ), esses “dados” serão fisicamente sensíveis do ponto de vista biológico.

Agora vamos adicionar algumas flutuações aleatórias (normalmente distribuídas) aos dados para emular o erro experimental / de medição:


O modelo de regressão binomial negativa

Na seção anterior, conhecemos o modelo de regressão de Poisson e vimos como aplicá-lo a dados baseados em contagem, como o conjunto de dados de contagens de ciclistas na ponte do Brooklyn:

Imagem de fundo: a ponte do Brooklyn vista da ilha de Manhattan

Também vimos que o modelo de regressão de Poisson provou ser inadequado para modelar nosso conjunto de dados de ciclistas.

Embora o modelo de regressão de Poisson tenha feito previsões visualmente satisfatórias ...:

Contagens diárias reais de ciclistas, versus os valores previstos pelo modelo de regressão de Poisson. (Imagem do autor)

... seus resultados foram estatisticamente insatisfatórios:

Resumo de treinamento para o modelo de regressão de Poisson mostrando valores inaceitavelmente altos para desvio e estatísticas qui-quadrado de Pearson (imagem do autor)

O baixo desempenho do modelo deveu-se ao fato de os dados não obedecerem aos variância = média critério exigido pelo modelo de regressão de Poisson.

Este critério bastante estrito muitas vezes não é satisfeito por dados do mundo real. Muitas vezes, a variância é maior do que a média, uma propriedade chamada superdispersão, e às vezes a variância é menor do que a média, chamada subdispersão. Nesses casos, é necessário usar um modelo de regressão que não fará o suposição de equidispersãoou seja, não suponha que variância = média.

o Binomial negativo (NB) modelo de regressão é um modelo que não faz o variância = médiasuposição sobre os dados.

No restante da seção, aprenderemos sobre o modelo NB e veremos como usá-lo no conjunto de dados de contagens de ciclistas.

Layout da seção

A seção é disposta da seguinte forma:

  1. Seremos apresentados a um conjunto de dados do mundo real de contagens que usaremos no restante desta seção.
  2. Definiremos nossa meta de regressão neste conjunto de dados.
  3. Vamos formular a estratégia de regressão usando o modelo NB como nosso modelo de regressão.
  4. Vamos configurar o modelo NB, treiná-lo no conjunto de dados e fazer algumas previsões no conjunto de dados de teste. Faremos tudo isso usando o Modelos de estatísticas Pythonbiblioteca.
  5. Por último, vamos examinar se o desempenho do modelo NB é realmente superior ao desempenho do modelo de Poisson.

Um conjunto de dados de contagens do mundo real

A tabela a seguir contém a contagem de ciclistas que viajam por várias pontes de Nova York. As contagens foram medidas diariamente de 01 de abril de 2017 a 31 de outubro de 2017.

Fonte: Contagem de bicicletas para pontes de East River (fonte de dados: NYC OpenData) (imagem do autor)

Concentraremos nossa análise no número de ciclistas que cruzam a ponte do Brooklyn todos os dias. Aqui está um gráfico sequenciado no tempo das contagens de ciclistas vistas na ponte do Brooklyn.

Ciclista diário conta com a ponte do Brooklyn (fundo: a ponte do Brooklyn vista da ilha de Manhattan)

Nosso objetivo de regressão

Nosso objetivo de regressão é prever o número de ciclistas que cruzam a ponte do Brooklyn em um determinado dia.

Nossa estratégia de regressão

Dados os valores de um conjunto de variáveis ​​de regressão para um determinado dia, usaremos o modelo NB para prever a contagem de ciclistas na ponte do Brooklyn naquele dia.

Precisamos detalhar essa estratégia, então vamos nos aprofundar. Vamos começar definindo algumas variáveis:

y = o vetor de contagem de ciclistas visto em dias 1 Através dos n.
Assim y =[y_1, y_2, y_3,…, y_n].
y_i
é o número de ciclistas por dia eu.

X = a matriz de preditores a.k.a. regressores a.k.a Variáveis ​​explicativas a.k.a. variáveis ​​de regressão. O tamanho da matriz X é um (n x m) uma vez que existem n observações independentes (linhas) no conjunto de dados e cada linha contém valores de m Variáveis ​​explicativas.

λ = o vetor de taxas de eventos. O vetor λ é uma característica primária dos conjuntos de dados baseados em contagem. λ é um vetor de tamanho (n x 1). Contém n cotações [λ_0, λ_1, λ_2,…, λ_n], correspondente a n contagens observadas no vetor de contagens y. A taxa λ_i para observação 'eu' presume-se que conduza a contagem real observada y_i no vetor de contagens y. o λ coluna não está presente nos dados de entrada. Em vez de, λ vetor é uma variável deduzida que é calculada pelo modelo de regressão durante a fase de treinamento.

Para os dados de contagem do ciclista, cada um dos λ_i os valores são definidos como o número de ciclistas que cruzam a ponte em 'unidade' de tempo no dia eu. O tempo da unidade pode ser 1 segundo, 1 hora, 1 dia, 1 semana - qualquer intervalo de tempo da unidade que desejamos medir a taxa. Esta taxa λ_i presume-se que conduza a contagem observada de ciclistas y_i Um dia eu.

A figura a seguir ilustra essas definições em um subconjunto de nosso conjunto de dados de contagem de ciclistas:

A matriz de variáveis ​​de regressão X e o vetor de contagens observadas de ciclistas y (Imagem do autor)

O algoritmo de treinamento do modelo de regressão Binomial Negativo ajustará as contagens y observadas à matriz de regressão X.

Assim que o modelo for treinado, testaremos seu desempenho em um conjunto de dados de teste que o modelo não viu durante o treinamento.

Lembre-se de que o modelo de regressão Binomial Negativo não faz o variância = média suposição de que o modelo de regressão de Poisson o faz.

Em vez disso, o modelo NB exige que definamos um novo parâmetro α que ele usa para expressar a variação em termos da média da seguinte forma:

A função de variância do modelo NB (imagem do autor)

Na prática, essa equação assume uma das duas formas mais comuns:

A função de variância do modelo NB1 (imagem do autor) A função de variância do modelo NB2 (imagem do autor)

O caso p = 2 é referido como o NB2 modelo.

Usaremos o modelo NB2.

o Modelos de estatísticas Python A biblioteca também suporta o modelo NB2 como parte da classe Modelo Linear Generalizado que ela oferece.

Na verdade, o pacote statsmodels.genmod.families.family tem uma classe inteira dedicada ao modelo NB2:

Observe que o valor padrão de alfa = 1 que esta classe assume, nem sempre é o valor correto para todos os conjuntos de dados. Então, como podemos determinar o valor correto de α para nosso conjunto de dados de contagem de ciclistas?

Encontrando o valor correto de α

Mais uma vez, os Srs. Cameron e Trivedi vêm em nosso socorro. Em seu livro, Regression Analysis of Count Data, Cameron e Trivedi sugerem um meio inteligente de calcular α usando uma técnica que eles chamam regressão OLS auxiliar sem uma constante. A equação de regressão que eles recomendam é a seguinte:

Regressão OLS auxiliar para encontrar α para o modelo NB2 (Imagem do autor)

Você pode ver imediatamente a relação da equação OLS aux com a equação de regressão em linha reta: Y = B_1*X + B_0.

Caso você esteja curioso, a equação para estimar α para o modelo NB1 é o seguinte:

Estimador para α para o modelo NB1 (imagem do autor)

No restante desta seção, usaremos o modelo NB2.

Podemos encontrar o valor de α, uma vez que ajustamos a equação de regressão auxiliar usando a técnica de regressão de mínimos quadrados ordinários em nosso conjunto de dados de contagens. Veremos como fazer isso em breve.

Mas como encontrar λ_i que está contido na equação de regressão OLS aux?

Encontrar λ_i, ajustamos o modelo de regressão de Poisson ao nosso conjunto de dados! Na verdade, fazer isso nos dá o vetor de taxa completo λ = [λ_1, λ_2, λ_3,…, λ_n] correspondendo a todos n observações no conjunto de dados.

Agora temos todos os ingredientes prontos para a estratégia de regressão NB2. Vamos resumir.

Resumo da estratégia de regressão NB2

  • PASSO 1: Ajuste o modelo de regressão de Poisson no conjunto de dados. Isso nos dará o vetor de taxas ajustadas λ.
  • PASSO 2: Ajuste o modelo de regressão OLS aux no conjunto de dados. Isso nos dará o valor de α.
  • ETAPA 3: Use o α do PASSO 2 para ajustar o modelo de regressão NB2 ao conjunto de dados.
  • PASSO 4: Use o modelo NB2 ajustado para fazer previsões sobre as contagens esperadas no conjunto de dados de teste.
  • PASSO 5: Teste a adequação do modelo NB2.

Agora que nossa estratégia de regressão foi esboçada, vamos implementá-la usando Python, Pandas e modelos de estatísticas.

Como fazer regressão binomial negativa em Python

Começaremos importando todos os pacotes necessários.

Em seguida, crie um DataFrame pandas para o conjunto de dados de contagens.

Vamos adicionar algumas variáveis ​​de regressão derivadas ao X matriz.

Não vamos usar o Encontro variável como um regressor, pois contém um valor de data absoluto, mas não precisamos fazer nada especial para eliminar Encontro pois já é consumido como o índice do pandas DataFrame. Portanto, não estará disponível para nós no X matriz.

Vamos criar os conjuntos de dados de treinamento e teste.

ETAPA 1: Agora configuraremos e ajustaremos o modelo de regressão de Poisson no conjunto de dados de treinamento.

Configure a expressão de regressão em notação patsy. Estamos dizendo a patsy que BB_COUNT é nossa variável dependente e depende das variáveis ​​de regressão: DAY, DAY_OF_WEEK, MONTH, HIGH_T, LOW_T e PRECIP.

Configure o X e y matrizes para os conjuntos de dados de treinamento e teste. patsy torna isso realmente simples.

Usando o modelos de estatísticas GLMclasse, treine o modelo de regressão de Poisson no conjunto de dados de treinamento.

Isso conclui o treinamento do modelo de regressão de Poisson. Para ver o resultado do treinamento, você pode imprimir o resumo do treinamento.

Isso imprime o seguinte:

Resumo do treinamento para o modelo de regressão de Poisson (imagem do autor)

Nosso real interesse está no vetor de taxas ajustadas λ produzidos pelo treinamento. Este vetor de taxa está contido no parâmetro poisson_training_results.mu.

A saída a seguir mostra os primeiros e os últimos valores do vetor λ ajustado:

Isso completa PASSO 1: ajustando o modelo de regressão de Poisson.

ETAPA 2: Agora ajustaremos o modelo de regressão OLS auxiliar no conjunto de dados e usaremos o modelo ajustado para obter o valor de α.

Adicione o λvetor como uma nova coluna chamada ‘BB_LAMBDA’ para o quadro de dados do conjunto de dados de treinamento. Lembre-se disso λ ’dimensões s são (n x 1). Em nosso exemplo, será (161 x 1). Lembre-se também de que o λo vetor está disponível em poisson_training_results.mu:

A seguir, vamos adicionar uma coluna derivada chamada ‘AUX_OLS_DEP’ ao quadro de dados do pandas. Esta nova coluna irá armazenar os valores de a variável dependente da regressão OLS. É o lado esquerdo da equação de regressão OLS abaixo:

Regressão OLS auxiliar para encontrar α para o modelo NB2 (Imagem do autor)

No trecho de código acima, a parte em negrito é o lado esquerdo da equação aux OLSR acima.

Vamos usar patsy para formar a especificação do modelo para o OLSR. Queremos dizer a patsy que AUX_OLS_DEPéa variável dependente eéexplicado por BB_LAMBDA (queéo vector de taxa λ) O ‘-1’ no final da expressão é a sintaxe patsy para dizer: não use uma interceptação de regressão, ou seja, apenas ajuste uma linha reta passando pela origem, como sugerido pelos Srs. Cameron e Trivedi.

Agora estamos prontos para ajustar um modelo OLSR.

Configure e ajuste o modelo OLSR:

Imprima os parâmetros de regressão:

Você verá o seguinte coeficiente único sendo impresso correspondendo à variável de regressão única BB_LAMBDA. Este coeficiente é o α que estávamos procurando:

É α estatisticamente significativo?

Agora precisamos responder a uma pergunta muito importante. Este valor é de α (0.037343) estatisticamente significativo? Ou pode ser considerado zero para todos os efeitos práticos?

Por que é tão importante descobrir isso? Lembre-se de que se α é zero, então a seguinte equação:

A função de variância do modelo NB2 (imagem do autor)

... reduz a Variância = média. Esta é a função de variância do modelo de regressão de Poisson.

Se o valor de α não for estatisticamente significativo, o modelo de regressão Binomial Negativo não pode fazer um trabalho melhor de ajustar o conjunto de dados de treinamento do que um modelo de regressão de Poisson.

o OLSResults objeto contém o t-score do coeficiente de regressão α. Vamos imprimir:

Em uma calculadora de valor t, podemos ver que o valor t crítico em um nível de confiança de 99% (cauda direita) e graus de liberdade = (161 observações) - (1 parâmetro de dispersão α) = 160 é 2.34988. Isso é confortavelmente menos do que a estatística t de α que foi 4,814096. Concluimos que,

Isso completa PASSO 2: A determinação de α.

PASSO 3: Fornecemos o valor de alfa encontrado no PASSO 2 no statsmodels.genmod.families.family.NegativeBinomial classe e treinar o modelo NB2 no conjunto de dados de treinamento.

Esta é uma operação de uma etapa em modelos de estatísticas:

Como antes, imprimiremos o resumo do treinamento:

Que imprime o seguinte resumo:

Resumo do treinamento do modelo NB2 (imagem do autor)

PASSO 4: vamos fazer algumas previsões usando nosso modelo NB2 treinado.

A previsão é novamente um procedimento de etapa única em modelos de estatísticas:

Vamos imprimir as previsões:

A seguir estão as primeiras linhas da saída:

As primeiras linhas de saída de nb2_predictions.summary_frame () (Imagem do autor)

Vamos também representar graficamente as contagens previstas versus as contagens reais para os dados de teste.

Ciclista previsto versus real conta com a ponte do Brooklyn usando o modelo NB2 (Imagem do Autor)

Não é tão ruim! O modelo NB2 parece estar mais ou menos acompanhando a tendência na contagem de bicicletas. E assim como com o desempenho do modelo de regressão de Poisson, em alguns casos, suas previsões estão muito longe dos valores reais.

Aqui está o código-fonte Python completo para treinar um modelo de regressão binomial negativa e testar suas previsões:

importar pandas como pd
de patsy import dmatrices
importar numpy como np
importar modelos de estatísticas. api como sm
importar modelos de estatísticas. Fórmula . api como smf
import matplotlib. pyplot como plt
#criar um DataFrame pandas para o conjunto de dados de contagem
df = pd. read_csv (& # 39nyc_bb_bicyclist_counts.csv & # 39, header = 0, infer_datetime_format = True, parse_dates = [0], index_col = [0])
#adicione algumas variáveis ​​de regressão derivadas à matriz X
ds = df. índice. to_series ()
df [& # 39MONTH & # 39] = ds. dt. mês
df [& # 39DAY_OF_WEEK & # 39] = ds. dt. dia da semana
df [& # 39DAY & # 39] = ds. dt. dia
#criar os conjuntos de dados de treinamento e teste
máscara = np. aleatória . rand (len (df)) & lt 0,8
df_train = df [máscara]
df_test = df [

A questão final diante de nós é:

Estatisticamente, nosso modelo de regressão NB2 fez um trabalho melhor do que o modelo de regressão de Poisson?

PASSO 5: Medindo a adequação do modelo NB2

De uma perspectiva de adequação, há três coisas de interesse no resumo de treinamento do modelo NB2. Eles estão marcados com uma caixa vermelha na figura abaixo. Vamos olhar para cada um deles começando com o Log-Probabilidade.

Resumo do treinamento do modelo NB2 (imagem do autor)

Vamos primeiro comparar o resumo de treinamento do modelo NB2 com o do modelo de regressão de Poisson no mesmo conjunto de dados:

A primeira estatística a observar é a Log probabilidade valor. O log-verossimilhança máximo foi gerado pelo Estimativa de Máxima Verossimilhança (MLE) técnica que foi executada por modelos estatísticos durante o treinamento dos modelos Poisson e NB2. A técnica MLE é usada para fixar os valores de todos os coeficientes do modelo para alguns valores ótimos que irão maximizar a probabilidade de ver o vetor de contagens y no conjunto de dados de treinamento. Para saber mais sobre o MLE e como ele é usado no treinamento do modelo, consulte a seção sobre o modelo de regressão de Poisson.

O teste da razão de verossimilhança (LR)

O teste de razão de verossimilhança é usado para comparar o quão bem dois modelos se ajustam aos dados.

A estatística do teste LR é simplesmente negativa duas vezes a diferença nas verossimilhanças logadas ajustadas dos dois modelos.

Em nosso caso, a probabilidade Log para NB2 é -1383,2, enquanto para o modelo de regressão de Poisson é -12616. Portanto, a estatística de teste LR é 2 * (12616–1383,2) = 22465,6. Este valor é muito maior do que o valor crítico de χ2 (1) no nível de significância de 1% que é 5,412.

De acordo com o teste LR, o modelo de regressão NB2 treinado demonstrou um ajuste muito melhor no conjunto de dados dos ciclistas em comparação com o modelo de regressão de Poisson.

Agora vamos comparar a qualidade do ajuste do modelo de regressão NB2 em termos absolutos.

As estatísticas Qui-quadrado de Deviance e Pearson

Os valores relatados de Deviance e Pearson qui-quadrado para o modelo NB2 são 330,99 e 310, respectivamente. Para fazer uma determinação quantitativa da qualidade do ajuste em algum nível de confiança, digamos 95% (p = 0,05), procuramos o valor no χ2 tabela para p = 0,05 e Graus de liberdade dos resíduos = 165. Comparamos este valor Qui-quadrado com a estatística observada - neste caso, é o Deviance ou o valor qui-quadrado de Pearson relatado em GLMResults. Descobrimos que em p = 0,05 e DF Residuals = 165, o valor qui-quadrado de uma tabela qui-quadrado padrão é 195,973, que é menor do que a estatística relatada de 330,99 e 310. Portanto, de acordo com este teste, o modelo de regressão NB2, apesar de demonstrar um ajuste muito melhor do que o modelo de regressão de Poisson, ainda está abaixo do ideal. Nós poderia ser capaz de fazer melhor.

Conclusão e próximas etapas

Os modelos de regressão Poisson e Binomial Negativo são usados ​​para modelar conjuntos de dados baseados em contagens. Ambos os modelos produzem resultados que são:

Ambos os modelos são apoiados por uma teoria estatística forte e muito bem compreendida.

Para fazer regressão em conjuntos de dados baseados em contagens, uma boa estratégia a seguir é começar com o modelo de regressão de Poisson e, em seguida, ver se você pode obter melhores resultados usando o modelo de regressão Binomial Negativo.

Se nem Poisson nem NB2 forem apropriados para seu conjunto de dados, considere o uso de técnicas mais avançadas, como:

  1. Variantes complexas do modelo de regressão de Poisson, como o modelo Zero-inflated.
  2. O modelo de obstáculo
  3. Um modelo de regressão baseado em floresta aleatória
  4. Um modelo de regressão baseado em rede neural de Memória de Longo-Curto Prazo (LSTM)

Referências, citações e direitos autorais

Conjunto de dados

Contagens de bicicletas para as pontes do East River. Total diário de contagens de bicicletas realizadas mensalmente na ponte de Brooklyn, ponte de Manhattan, ponte de Williamsburg e ponte de Queensboro. De NYC Open Data sob Termos de Uso. Conjunto de dados selecionado para download.

Links de livros e artigos

Cameron A. C. e Trivedi P. K., Regression Analysis of Count Data, Segunda Edição, Econometric Society Monograph No. 53, Cambridge University Press, Cambridge, maio de 2013.

Imagens

Todas as imagens são copyright Sachin Date sob CC-BY-NC-SA, a menos que uma fonte diferente e copyright sejam mencionados abaixo da imagem.

Escrevo sobre tópicos de ciência de dados, com foco específico em análise de séries temporais, regressão e previsão.

Se você gostou deste conteúdo, inscreva-se para receber novos conteúdos em seu e-mail:


Materiais e métodos

A Fig 1 mostra um esboço generalizado do processo final de análise Bayesiana. Pode ser dividido em três seções principais: análise de sensibilidade, análise bayesiana e verificação de modelo. No entanto, antes de aplicar o processo, os dados devem ser gerados ou coletados e um modelo apropriado escolhido.

Uma representação simplificada do processo de análise bayesiana.

Escolha do modelo

Embora uma breve visão geral da história dos modelos BrainSignals tenha sido dada na introdução, nesta seção fornecemos mais informações sobre as especificidades dos diferentes modelos. A Tabela 1 compara o número de reações, equações, relações, reações, variáveis ​​e parâmetros em três modelos diferentes. O modelo BRAINCIRC de 2005 construído em um modelo circulatório anterior por Ursino e Lodi [29] e modelos combinados para a biofísica do sistema circulatório, a bioquímica metabólica do cérebro e a função do músculo liso vascular. O modelo BrainSignals que o sucedeu simplificou o modelo ‘BRAINCIRC’ e adicionou um submodelo do metabolismo mitocondrial. Conforme mencionado anteriormente, a fim de melhor simular os processos fisiológicos e metabólicos do cérebro do leitão, que é frequentemente usado como o modelo pré-clínico neonatal, o modelo ‘BrainPiglet’ [4] foi desenvolvido a partir do modelo BrainSignals. Envolveu a modificação dos valores padrão para 11 dos 107 parâmetros usados ​​e foi estendido para incluir medições simuladas para valores de espectroscopia de ressonância magnética que incluíam lactato de tecido cerebral e produção de ATP, medições que estão disponíveis em estudos de leitões. Sua extensão, BrainPiglet v2, incorporou os efeitos da morte celular durante a lesão a fim de investigar por que dois leitões apresentaram recuperações diferentes após hipóxia-isquemia, descobrindo que as diferenças poderiam ser explicadas incluindo a morte celular dentro do modelo [5].

O modelo ‘BrainSignals Revisited’ foi produzido fazendo várias simplificações no modelo BrainSignals, identificando várias funções que poderiam ser substituídas por aproximadores lineares sem reduzir a aplicabilidade do modelo. Isso reduziu a complexidade e diminuiu o tempo necessário para executar uma simulação, embora seja capaz de reproduzir os mesmos resultados e comportamento do modelo original. Este modelo reduzido do cérebro adulto foi posteriormente estendido para simular a hemodinâmica extracerebral para investigar fatores de confusão com medições de espectroscopia de infravermelho próximo do cérebro, o modelo ‘BSX’ [30].

Os modelos são acionados com sinais de entrada, como a pressão sanguínea e / ou saturação de oxigênio, e simulam medições do tecido cerebral de oxigenação, volume sanguíneo e metabolismo, bem como a velocidade da artéria cerebral média (Vmca) e a taxa metabólica cerebral de oxigênio (CMRO2) O modelo pode ser dividido em aproximadamente 3 compartimentos - fluxo sanguíneo, transporte de oxigênio e metabolismo - com limites escolhidos para minimizar a interdependência. A Fig 2 descreve isso com mais detalhes.

Um modelo BrainSignals típico pode ser dividido em quatro compartimentos ou submodelos. o fluxo sanguíneo submodelo representa o fluxo sanguíneo das artérias para as veias através do leito capilar e o transporte de oxigênio submodelo estima a difusão de O dissolvido2 do sangue capilar ao tecido cerebral. O oxigênio fornecido é então utilizado pelo metabolismo submodelo. finalmente, o medição o submodelo traduz os estados internos dos submodelos de fluxo sanguíneo e metabolismo em resultados observáveis. As entradas do modelo são mostradas em vermelho e consistem em pressão sanguínea arterial (ABP), saturação arterial de oxigênio (SaO2), pressão parcial de CO2 (PaCO2) e um parâmetro que especifica a demanda relativa, enquanto as saídas mensuráveis ​​são mostradas em azul, incluindo os sinais NIRS, bem como a velocidade da artéria cerebral média (Vmca) e a taxa metabólica cerebral de oxigênio (CMRO2).

Todos esses modelos são resolvidos usando o framework BCMD e são escritos em um formato de texto simples que pode ser traduzido para código C executável e resolvido usando o solver RADAU5 [31]. Os modelos assumem uma representação de equação diferencial-algébrica padrão, da forma: (1) onde y é um vetor de variáveis ​​de interesse, M é uma matriz de massa constante, possivelmente singular, especificando relações entre os termos diferenciais, e f é alguma função com valor vetorial, possivelmente com parâmetros adicionais θ. Se uma linha de M é zero, a equação correspondente em f é algébrico em vez de diferencial.

Neste trabalho, optamos por usar o modelo BrainSignals refatorado [6], com uma pequena modificação para incluir a diferença de hemoglobina (ΔHbO2 - ΔHHb = ΔHbD) como uma saída do modelo ao lado das saídas normais de oxihemoglobina (ΔHbO2), desoxiemoglobina (ΔHHb), hemoglobina total (ΔHbO2 + ΔHHb = ΔHbT), índice de oxigenação tecidual (TOI) e citocromo-c-oxidase (ΔCCO). Ambos ΔHbD e ΔHbT estão incluídos no conjunto de dados experimentais por serem bons indicadores de alterações na oxigenação cerebral e alterações no volume sanguíneo cerebral, respectivamente, sendo ambos facilmente medidos usando NIRS de banda larga. Todas as saídas NIRS, exceto TOI, são medidas como mudanças em relação a um valor inicial e, portanto, os dados e as saídas do modelo são normalizadas para um valor inicial de 0.

Três conjuntos de dados foram usados ​​para testar o novo processo de análise do modelo bayesiano. Em primeiro lugar, dados 'saudáveis' foram simulados usando o modelo BrainSignals com as configurações de parâmetro padrão, conforme [2, 3]. Em seguida, as mesmas entradas foram usadas, mas com o modelo modificado para representar um cérebro "deficiente". Para fazer isso, um único parâmetro foi alterado para refletir uma patologia ou lesão potencial, para gerar um conjunto de dados simulado "prejudicado". Finalmente, usamos dados experimentais de um adulto saudável submetido a um desafio de hipóxia.

Dados simulados.

Pressão parcial de CO2 (PaCO2) e a pressão arterial (ABP) foram mantidas em seus valores basais de 40 mmHg e 100 mmHg, respectivamente, enquanto a saturação arterial de oxigênio (SaO2) foi variado para simular hipóxia por meio de uma diminuição na saturação arterial de oxigênio de 97% para 65%. Inicialmente, todos os parâmetros do modelo foram mantidos em seus valores padrão, a fim de simular a resposta de um cérebro saudável a este desafio. A Fig 3 mostra os dados de saturação arterial e a resposta do modelo em todas as saídas do modelo consideradas.

As Figuras a) -e) mostram simulações da resposta de um cérebro saudável à hipóxia, enquanto f) -j) mostram a resposta do cérebro prejudicado. A variável de entrada da saturação de oxigênio arterial é mostrada em azul e é a mesma para ambas as simulações, enquanto as saídas de TOI, ΔHbO2, ΔHHb e ΔCCO diferem claramente entre os dois estados cerebrais.

Depois de simular a resposta do cérebro saudável e determinar sua distribuição posterior de parâmetros, o modelo foi alterado para incluir um estado cerebral patológico ou prejudicado. Fig 3f) –3j) mostra a resposta do modelo em todas as saídas do modelo considerado para este estado cerebral prejudicado. A resposta das saídas do modelo à mesma mudança na saturação arterial é muito menor do que na simulação saudável, com o TOI tendo um valor de linha de base inferior de cerca de 45% em comparação com cerca de 75%. Isso foi feito alterando um único parâmetro para ficar fora do espaço de parâmetro saudável. r_t, que afeta a forma da relação de tensão muscular, foi considerado sensível tanto no processo de análise de sensibilidade (consulte os dados simulados nos resultados da análise de sensibilidade) quanto na análise Bayesiana. Isso é visto claramente em sua posterior marginal comparativamente estreita para os dados saudáveis. A rigidez dos vasos sanguíneos no cérebro também foi observada como um fator potencialmente importante em uma série de patologias diferentes, incluindo Alzheimer [32], e na autorregulação, como visto na Fig 4.

A Fig 4a mostra o efeito de diferentes rt valores na forma da curva de tensão muscular para uma gama de raios de vasos. Pode-se ver que a redução rt alarga a curva, levando ao aumento da tensão muscular para o mesmo raio do vaso. As Figuras 4b, 4c e 4d mostram o efeito de aumentar e diminuir as entradas do modelo no fluxo sanguíneo cerebral para diferentes valores de rt. O fluxo sanguíneo cerebral (FSC) é fornecido como uma proporção do FSC normal (40 ml 100g −1 min −1). Mudando rt tem um efeito significativo na capacidade do cérebro de autorregular dentro do modelo. A Fig 4b mostra que as pressões sanguíneas mais elevadas causam uma diminuição no fluxo sanguíneo cerebral para menores rt, em oposição a um aumento no valor normal de rt = 0,018 cm. A Fig. 4c mostra que para inferiores rt valores, CBF diminui mais rápido como PaCO2 é diminuído. A Fig. 4d mostra que em todas as saturações de oxigênio consideradas, menores rt dá um CBF mais baixo.

A relação de tensão muscular é definida como (2) onde Tm é a tensão muscular dentro da parede do vaso e tem uma dependência em forma de sino do raio do vaso, tomando valor Tmax em algum raio ótimo rm. rt e nm são parâmetros que determinam a forma da curva. A Fig 4a ilustra o efeito da mudança rt na forma da curva e mostra que a diminuição rt leva ao aumento da tensão muscular para o mesmo raio do vaso devido ao alargamento da curva em forma de sino. Isso pode ser visto como um endurecimento dos vasos dentro do cérebro.

Mudando rt tem um efeito significativo na capacidade do cérebro de autorregular dentro do modelo, como visto nas Figs. 4b, 4c e 4d. A Fig 4b mostra que a pressão arterial mais elevada causa uma diminuição no fluxo sanguíneo cerebral (CBF) para menores rt valores, em oposição a um aumento no valor normal de rt = 0,018 cm. A Fig 4c mostra que o CBF é menor e diminui mais rápido para menor rt valores como PaCO2 é diminuída e a Fig. 4d mostra que em todas as saturações de oxigênio consideradas, menor rt dá um CBF mais baixo.

Embora esperemos que o comprometimento de um sistema biológico real resulte de mudanças de parâmetros múltiplos, a intenção aqui era fazer a modificação mais simples possível, embora ainda representando uma mudança fisiológica potencialmente real, a fim de testar o método nas condições mais simples. Além disso, deve-se notar que uma única alteração de parâmetro terá efeitos sobre várias variáveis ​​fisiológicas. Conforme descrito abaixo, também aplicamos o método a dados experimentais que são inerentemente mais complexos do que este exemplo simples e onde esperamos que vários parâmetros sejam diferentes da linha de base.

Dados experimentais.

Os dados experimentais conterão inerentemente mais incerteza para o ajuste dos parâmetros do que os dados gerados pelo próprio modelo. Isso torna importante testar o processo de análise bayesiana em dados experimentais e também nos simulados do modelo. Os dados usados ​​foram coletados originalmente por Tisdall et al. [33] e é mostrado na Fig. 5. Humanos adultos saudáveis ​​tiveram sua saturação de oxigênio arterial reduzida desde a linha de base para 80%, enquanto minimizam as mudanças na tensão de dióxido de carbono expirado (EtCO2).

Dados coletados de um adulto saudável durante um desafio de hipóxia. Os dados sistêmicos usados ​​como entradas do modelo são mostrados nas figuras a), b) ec), com medições de NIRS de banda larga mostradas nas figuras d), e), f) e g).

O conjunto de dados contém três entradas de modelo: saturação de oxigênio arterial, CO final da expiração2 e pressão arterial, com EtCO2 convertido em pressão parcial de CO2. Os dados da pressão arterial foram filtrados usando um filtro Butterworth de 5ª ordem de passagem baixa, com um corte de 0,05 Hz, para remover o ruído. A natureza altamente quantizada da pressão parcial de CO2 os dados não são um problema aqui, pois o modelo contém filtros de primeira ordem para suavizar os sinais de entrada durante um determinado período de tempo.

Em termos de saídas do modelo, apenas os sinais NIRS foram usados: ΔHbD, ΔHbT, ΔCCO e TOI. Todos os dados foram reamostrados para 1 Hz.

Análise sensitiva

Ao ajustar um modelo tão complexo como BrainSignals, é importante reduzir o número de parâmetros necessários para o ajuste. Esperamos que nem todos os parâmetros tenham um impacto significativo na saída do modelo para um determinado conjunto de dados de entrada. Em vez disso, podemos tentar reduzir o número de parâmetros considerados por meio da análise de sensibilidade. Usamos o método de Morris [34, 35], que é conhecido por funcionar bem com um grande número de parâmetros. O método requer que a série temporal seja reduzida a um único número e identifica os parâmetros que produziram a maior variação neste valor de resumo. Anteriormente, usamos a distância euclidiana ao longo de toda a série temporal como nosso valor de resumo, mas isso tem uma série de desvantagens significativas.

Se a medida sumária é a distância ao longo de toda a série temporal, não estamos conseguindo capturar mudanças específicas que sabemos ser fisiologicamente importantes. No caso de nossa simulação de hipóxia, por exemplo, queremos selecionar parâmetros que são importantes no controle da mudança geral da linha de base. Tomar a distância euclidiana ao longo da série temporal como um todo, entretanto, não prioriza esse comportamento. A Fig 6a mostra três conjuntos de dados gerados a partir da mesma função de modelo de brinquedo (3), onde uma, b são ambos os parâmetros do modelo e ϵ é um ruído gaussiano aleatório.

A Fig 6a mostra os dados gerados a partir da mesma função de teste yeu = uma x pecado(x) + b + ϵ, Onde uma, b são ambos os parâmetros do modelo e ϵ é um ruído gaussiano aleatório. x foi variado de 0 a 2π, produzindo dados y0, y1 e y2 para os conjuntos de parâmetros Θ0: uma = 0, b = 0, Θ1: uma = 1, b = 0 e Θ2: uma = 0, b = 2,5 respectivamente. Apesar de ambos y1 e y2 sendo qualitativamente muito diferentes, eles são muito semelhantes quando resumidos usando apenas a distância euclidiana, com y1 tendo uma distância euclidiana εeuc, 1 = 35,58 e y2 tendo uma distância euclidiana εeuc, 2 = 35,44. Se, em vez disso, olharmos para a distância escalonada da linha de base ao pico (SBTP), descobrimos que y1 tem uma distância SBTP SBTP(y1) = 240,5 e y2 tem uma distância SBTP SBTP(y2) = 0,27, dando εSBTP, 1 = 240,2 e εSBTP, 2 = 0,11. A Fig 6b ilustra como a distância escalonada da linha de base ao pico é definida usando x pecado(x) + ϵ como o sinal de exemplo. A distância da linha de base ao pico é a distância absoluta da linha de base ao máximo (<|ymax|, |ymin|>). Isso é então dividido pelo intervalo de dados "padrão", y0, para obter a distância como uma proporção da mudança total vista nos dados. Neste exemplo, a distância da linha de base ao pico é 4,82 e o intervalo é 0,02, dando a distância SBTP mencionada anteriormente de 240,5.

Suponha que, sem modificação, nosso modelo produz dados y0, com os parâmetros padrão Θ0: uma = 0, b = 0, e que o comportamento que queremos reproduzir é senoidal, mas, por algum motivo, não sabemos qual parâmetro é mais importante na produção desse comportamento específico. Decidimos realizar uma análise de sensibilidade, usando uma medida de distância de algum tipo como nossa estatística de resumo, a fim de identificar o parâmetro mais importante na produção do comportamento sinusoidal. Se ao alterar um parâmetro essa medida de distância aumenta, então o comportamento resumido por aquela distância é sensível às mudanças naquele parâmetro. Neste caso, para produzir comportamento sinusoidal, gostaríamos de parâmetros uma para ser identificado como importante ao invés de parâmetro b.

Para gerar nossos dados x foi variado de 0 a 2π, produzindo conjuntos de dados y1 e y2 para os conjuntos de parâmetros Θ1: uma = 1, b = 0, onde apenas uma é alterado da linha de base, e Θ2: uma = 0, b = 0,707, onde apenas b é alterado da linha de base, respectivamente. y0 e conjunto de parâmetros Θ0 fornecer nossos dados de linha de base. Isso é visto na Fig 6a. É claro pela figura que as duas saídas y1 e y2 mostram um comportamento muito diferente, o comportamento que queremos otimizar é visto em y1.

Apesar de ambos y1 e y2 sendo qualitativamente muito diferentes, eles são muito semelhantes quando resumidos usando apenas a distância euclidiana, com y1 tendo uma distância euclidiana εeuc, 1 = 10,01 e y2 tendo uma distância euclidiana εeuc, 2 = 10,03. Isso significa que não conseguiríamos identificar claramente o parâmetro uma como sendo importante do que o parâmetro b na produção de comportamento sinusoidal.

Em vez disso, podemos definir uma nova medida de resumo, que chamaremos de distância “linha de base ao pico em escala” (SBTP). Sabemos que queremos encontrar o parâmetro que determina o quão senoidal nosso modelo é. Uma maneira de enfatizar esse comportamento é encontrar a distância de nossa linha de base até o máximo ou mínimo (o que tiver o maior valor absoluto) de nossos dados, conforme ilustrado na Figura 6b. Em seguida, escalamos isso pelo intervalo de nosso sinal "padrão", y0, para normalizá-lo e evitar problemas de comparação de dados de diferentes magnitudes. Isso nos dá (4). Em seguida, encontramos a distância euclidiana entre o valor SBTP para nossos dados "padrão", SBTP(y0), e SBTP(y1) e SBTP(y2) (5) onde aqui eu ∈ <1, 2>.

Se usarmos εSBTP como nossa medida sumária, descobrimos que y1 tem uma distância εSBTP, 1 = 240,2 e y2 tem uma distância εSBTP, 2 = 0,11. Isso significaria que o parâmetro uma poderia ser claramente identificado como sendo mais importante na produção de comportamento sinusoidal do que o parâmetro b.

Escalamos nossa distância da linha de base ao pico porque uma série de resultados do modelo variam significativamente em diferentes escalas. Por exemplo, a oxigenação cerebral pode ser medida através do TOI, que é uma porcentagem e, como visto na Fig. 3, pode variar entre 10-20%. Citocromo-c-oxidase no entanto, varia em uma faixa muito menor, com uma alteração de menos de 1μ M sendo típica. Deixar de levar em conta essas escalas diferentes fará com que os parâmetros que afetam as saídas de magnitude maior sejam identificados como mais sensíveis do que aqueles que afetam as saídas de magnitude menor, mesmo se a mudança relativa for significativa.

Por exemplo, se alterar um parâmetro θ1 faz com que a mudança de CCO vista na Fig 3e) dobre para um mínimo de -2μ M, enquanto uma mudança em um parâmetro θ2 faz com que o TOI diminua para 55%, sem dimensionar o modelo parece mais sensível a θ2 porque a magnitude da mudança é muito maior, embora a mudança relativa seja menor. Se considerarmos essa mudança proporcional ao intervalo de nossos dados, no entanto, consideraremos seu tamanho relativo.

Também deve ser observado que essa escolha de métrica é específica para o comportamento que está sendo otimizado. Por exemplo, no caso de um sinal não oscilatório, um método de resumo diferente seria necessário com base no comportamento a ser replicado naquele sinal específico. Também reconhecemos que há uma variedade de métodos diferentes para identificar um sinal senoidal a partir de um sinal linear e que nossa escolha de métrica aqui é uma entre muitas. Nós o escolhemos como no caso de nossos dados de hipercapnia, esperamos ver nosso sinal mudar da linha de base para o máximo ou mínimo, dependendo do sinal, antes de retornar à linha de base. A distância SBTP enfatiza este comportamento em um único número, embora também seja facilmente comparável ao trabalho anterior onde a distância euclidiana foi usada.

Usamos a variante do método de efeito elementar de Morris [34] desenvolvida por Saltelli et al. [36]. Isso nos fornece duas estatísticas notáveis: a média dos valores absolutos das mudanças, µ*, e seu desvio padrão, σ. Quanto maior o valor de µ*, quanto mais influente é o parâmetro na saída, quanto maior o desvio padrão, mais não linear é a influência do parâmetro. Os dez principais parâmetros mais sensíveis, de acordo com µ* foram escolhidos para se ajustar ao modelo. σ não foi usado para determinar quais parâmetros caber, embora o conhecimento da não linearidade de um parâmetro seja útil, em trabalho anterior [5, 6] optamos por usar simplesmente µ* pois isso fornece um bom resumo da sensibilidade de um único parâmetro e considero pertinente continuar a fazê-lo aqui. A faixa de parâmetro considerada para sensibilidade é o valor padrão ± 50%. As sensibilidades são calculadas para cada produto, bem como para todos os resultados em conjunto. Essa sensibilidade conjunta é calculada somando o valor SBTP para cada saída e, em seguida, determinando a variabilidade neste total.

Cálculo bayesiano aproximado

  1. Amostra de um vetor de parâmetro candidato θ* da distribuição da proposta p(θ).
  2. Simular um conjunto de dados yrepresentante do modelo descrito por uma distribuição de probabilidade condicional p(y|θ*).
  3. Compare o conjunto de dados simulado, yrepresentante , para o conjunto de dados experimental, y, usando uma função de distância, d, e tolerância, ϵ. Se d(y, yrepresentante ) ≤ ϵ, aceitar θ*. A tolerância ϵ ≥ 0 é o nível desejado de concordância entre y e yrepresentante .

A saída do algoritmo ABC usado será uma amostra da distribuição p(θ|d(y, y representante ) ≤ ϵ) Se ϵ é suficientemente pequeno, então p(θ|d(y, y representante ) ≤ ϵ) será uma boa aproximação para o posterior p(θ|y).

A escolha de d(⋅, ⋅) é importante, assim como com a análise de sensibilidade. Anteriormente, a distância euclidiana era usada para ajustar o modelo, mas, como no caso da análise de sensibilidade, isso não leva em consideração os resultados que variam em magnitudes diferentes. Em vez disso, optamos por incluir uma série de outras métricas de distância, incluindo o erro quadrático médio (RMSE) e o erro quadrático médio normalizado (NRMSE). Estes são definidos como (6) (7) onde x1 e x2 são as duas séries temporais sendo comparadas, ultrapassando t = 1 a t = T, com T sendo o número total de pontos no tempo.

Ao dividir o RMSE pelo intervalo dos dados, os erros das séries temporais que variam em magnitudes diferentes são comparáveis. Sem fazer isso, os parâmetros que afetam principalmente as saídas que variam em magnitudes maiores são preferencialmente otimizados. A normalização evita o sobreajuste de uma saída em detrimento de outras, proporcionando uma distribuição posterior da articulação mais confiável após o ajuste.

Após um ajuste exploratório inicial dos diferentes conjuntos de dados, verificou-se que definir um valor de tolerância absoluta não era um critério de seleção adequado. Isso foi devido aos valores de distância massivamente diferentes entre os conjuntos de dados, com todas as combinações de parâmetros no conjunto de dados saudável simulado produzindo valores de NRMSE menores do que quase todas as combinações de parâmetros no conjunto de dados prejudicado.

Em geral, o número de amostras aceitas que fornece uma aproximação adequada da distribuição posterior é dependente do problema, distribuições posteriores dispersas acabarão por exigir mais amostras. A estimativa deficiente da parte posterior pode, na maioria dos casos, resultar em uma ampla distribuição preditiva posterior que parece fornecer um ajuste de baixa qualidade porque amostras posteriores discrepantes causam vieses. Para abordar esse problema de forma pragmática, foi estabelecida uma taxa de aceitação fixa de 0,01%. Isso significava as combinações de parâmetros de 0,01% com o mais baixo d(y, y representante ) foram usados ​​como posteriores. O posterior foi visualizado através da estimativa da densidade do kernel em um pairplot usando o pacote Seaborn plotting [39]. A densidade preditiva posterior é então gerada por amostragem direta de 25 vezes posterior e o modelo simulado para cada amostra. Os resultados são agregados e plotados, com a mediana e o intervalo de credibilidade de 95% marcados no gráfico.

O modelo foi executado em lotes de 10.000.000 e as combinações de parâmetros dentro da taxa de aceitação foram usadas como posterior. Esse tamanho de lote foi escolhido como um meio-termo entre a amostragem suficiente do espaço de parâmetros e o tempo computacional necessário para executar o lote. A qualidade do ajuste obtido deste posterior determinou se o modelo foi executado um número suficiente de vezes para amostrar o posterior de forma adequada. Se a distribuição preditiva posterior falhou em capturar o comportamento visto nos dados “verdadeiros”, então o processo era repetido até que um ajuste mais adequado fosse obtido.


6.5 O teste t

Muitas medições experimentais são relatadas como números racionais, e a comparação mais simples que podemos fazer é entre dois grupos, digamos, células tratadas com uma substância em comparação com células que não o são. O teste básico para tais situações é o (t ) -teste. A estatística de teste é definida como

onde (m_1 ) e (m_2 ) são a média dos valores nos dois grupos, (s ) é o desvio padrão combinado e (c ) é uma constante que depende dos tamanhos da amostra, ou seja, , o número de observações (n_1 ) e (n_2 ) nos dois grupos. Nas fórmulas 97 97 Todos deveriam tentar se lembrar da Equação (6.2), ao passo que muitas pessoas sobrevivem olhando para cima (6.3) quando precisam. ,

onde (x_) é o (i ^ < text> ) ponto de dados no (g ^ < text> ) grupo. Vamos tentar fazer isso com os dados PlantGrowth de R's conjuntos de dados pacote.

Figura 6.6: Os dados PlantGrowth.

O que você obtém da comparação com trt1? O que fazer para trt1 versus trt2?

Qual é o significado de var.equal = TRUE na chamada acima para t.test?

Voltaremos a isso na Seção 6.5.

Reescreva a chamada acima para t.test usando a interface de fórmula, ou seja, usando o grupo de peso de notação ( sim ).

Para calcular o valor p, a função t.test usa a teoria assintótica para a estatística (t ) (6.2), esta teoria afirma que, sob a hipótese nula de médias iguais em ambos os grupos, a estatística segue um conhecimento matemático distribuição, a chamada (t ) -distribuição com (n_1 + n_2 ) graus de liberdade. A teoria usa suposições técnicas adicionais, ou seja, que os dados são independentes e vêm de uma distribuição normal com o mesmo desvio padrão. Podemos estar preocupados com essas suposições. É claro que não são válidos: os pesos são sempre positivos, enquanto a distribuição normal se estende por todo o eixo real. A questão é se esse desvio da suposição teórica faz uma diferença real. Podemos usar um teste de permutação para descobrir isso (discutiremos a ideia por trás dos testes de permutação um pouco mais detalhadamente na Seção 6.5.1).

Figura 6.7: A distribuição nula da estatística (t ) (absoluta) determinada por simulações - ou seja, por permutações aleatórias dos rótulos de grupo.

Por que usamos a função de valor absoluto (abs) no código acima?

Plote a distribuição (paramétrica) (t ) com os graus de liberdade apropriados.

O (t ) -test vem em vários sabores, todos os quais podem ser escolhidos por meio de parâmetros da função t.test. O que fizemos acima é chamado de teste não pareado de duas amostras e duas amostras com variância igual. Dupla face refere-se ao fato de que estávamos abertos para rejeitar a hipótese nula se o peso das plantas tratadas fosse maior ou menor do que as não tratadas.

Duas amostras 98 98 Pode ser confuso que o termo amostra tem um significado diferente em estatística e em biologia. Em biologia, uma amostra é um único espécime no qual um ensaio é realizado nas estatísticas, é um conjunto de medições, por exemplo, o (n_1 ) -tupla ( left (x_ <1,1>. X_ <1 , n_1> right) ) na Equação (6.3), que pode compreender várias amostras biológicas. Em contextos onde este duplo significado pode criar confusão, nos referimos aos dados de uma única amostra biológica como um observação. indica que comparamos as médias de dois grupos entre si; outra opção é comparar a média de um grupo com um determinado número fixo.

Não emparelhado significa que não houve mapeamento 1: 1 direto entre as medições nos dois grupos. Se, por outro lado, os dados tivessem sido medidos nas mesmas plantas antes e depois do tratamento, então um teste pareado seria mais apropriado, pois considera a mudança de peso dentro de cada planta, ao invés de seus pesos absolutos.

Variância igual refere-se à forma como a estatística (6.2) é calculada. Essa expressão é mais apropriada se as variações dentro de cada grupo forem quase as mesmas. Se eles forem muito diferentes, existe um formulário alternativo 99 99 de (t ) -teste de Welch e a teoria assintótica associada.

A suposição de independência. Agora vamos tentar algo peculiar: duplicar os dados.

Observe como as estimativas das médias do grupo (e, portanto, da diferença) permanecem inalteradas, mas o valor p agora é muito menor! Podemos concluir duas coisas a partir disso:

O poder do (t ) -teste depende do tamanho da amostra.Mesmo que as diferenças biológicas subjacentes sejam as mesmas, um conjunto de dados com mais observações tende a fornecer resultados mais significativos 100 100 Você também pode ver isso pela forma como os números (n_1 ) e (n_2 ) aparecem na Equação (6.3) . .

A suposição de independência entre as medições é muito importante. A duplicação flagrante dos mesmos dados é uma forma extrema de dependência, mas, até certo ponto, a mesma coisa acontece se você misturar diferentes níveis de replicação. Por exemplo, suponha que você tenha dados de 8 plantas, mas mediu a mesma coisa duas vezes em cada planta (réplicas técnicas), então fingir que agora são 16 medições independentes está errado.

6.5.1 Testes de permutação

O que aconteceu acima quando comparamos o resultado do teste (t ) paramétrico com o do teste de permutação aplicado à estatística (t )? É importante perceber que esses são dois testes diferentes, e a similaridade de seus resultados é desejável, mas coincidente. No teste paramétrico, a distribuição nula da estatística (t ) segue da distribuição nula assumida dos dados, uma distribuição normal multivariada com covariância unitária no espaço ((n_1 + n_2) ) -dimensional ( mathbb^), e é contínua: a (t ) -distribuição. Em contraste, a distribuição de permutação de nossa estatística de teste é discreta, pois é obtida do conjunto finito de ((n_1 + n_2)! ) Permutações 101 101 Ou um subconjunto aleatório, no caso de querermos economizar tempo de cálculo. dos rótulos de observação, de uma única instância dos dados (as observações (n_1 + n_2 )). Tudo o que assumimos aqui é que sob a hipótese nula, as variáveis ​​ (X_ <1,1>. X_ <1, n_1>, X_ <2,1>. X_ <2, n_2> ) são trocáveis. Logicamente, essa suposição está implícita na do teste paramétrico, mas é mais fraca. O teste de permutação emprega a estatística (t ), mas não a distribuição (t ) (nem a distribuição normal). O fato de que os dois testes nos deram um resultado muito semelhante é uma consequência do Teorema do Limite Central.


Materiais e métodos

Aqui, apresento três | $ R ^ <2> $ | s— | $ R ^ <2> _$ | ⁠, | $ R ^ <2> _$ | ⁠ e | $ R ^ <2> _$ | —Que pode ser aplicado a uma ampla classe de modelos em que a estrutura de variância dos resíduos contém covariâncias. Como estratégia de ataque, começarei com uma discussão detalhada de | $ R ^ <2> _$ | ⁠, com o objetivo de explicar os desafios de definir um | $ R ^ <2> $ | para dados correlacionados, bem como soluções possíveis. | $ R ^ <2> _$ | é baseado na variância dos resíduos de um modelo ajustado e está relacionado a | $ R ^ <2> _$ | (Nakagawa e Schielzeth, 2013), e contrastando | $ R ^ <2> _$ | com | $ R ^ <2> _$ | gera uma discussão de qual parcial | $ R ^ <2> $ | s revelar sobre um modelo equipado. Em seguida, farei apresentações mais breves de | $ R ^ <2> _$ | e | $ R ^ <2> _$ | ⁠. Todos | $ R ^ <2> $ | s são calculados no pacote R rr2 (Ives e Li, 2018).

Existe uma extensa literatura sobre | $ R ^ <2> $ | s para GLMs e LMMs, e uma literatura crescente para GLMMs (Buse, 1973 Cameron e Windmeijer, 1996, 1997 Kenward e Roger, 1997 Menard, 2000 Xu, 2003 Kramer, 2005 Edwards et al., 2008 Liu et al., 2008 Orelien e Edwards, 2008 Nakagawa e Schielzeth, 2013 Jaeger et al., 2017) esta literatura forma a base para o | $ R ^ <2> $ | s que podem ser aplicados a modelos filogenéticos. Os três | $ R ^ <2> $ | s usam três abordagens diferentes para definir “variância explicada”, as mesmas abordagens gerais consideradas para LMMs por Xu (2003). O | $ R ^ <2> $ | discutido primeiro, | $ R ^ <2> _$ | (para variância residual), é semelhante a | $ R ^ <2> _$ | apresentado por Nakagawa e Schielzeth (2013) e trabalhos relacionados (Edwards et al., 2008 Jaeger et al., 2017 Nakagawa et al., 2017). Portanto, apresentarei | $ R ^ <2> _$ | primeiro em aplicação a GLMMs e depois em aplicação a modelos filogenéticos.


2.S: Ajustando Modelos Estatísticos aos Dados (Resumo) - Biologia

| PORQUE? | estatística inferencial | tipos de dados | tendência central | medidas de variação |

| estatísticas paramétricas | suposições de .. | teste t | ANOVA | correlação e regressão |

| nonparam. estatísticas | suposições de. | teste qui-quadrado de uma amostra | teste qui-quadrado de 2 amostras | outro nonparam. testes |

QUE TESTE POSSO USAR ?: Fluxograma

Introdução

Como biólogos em amadurecimento, grande parte de sua vida será gasta coletando dados e decidindo o que fazer com eles. Infelizmente, essa tarefa fez com que muitos em nossa profissão oscilarem entre a ansiedade e a apoplexia, e esse não precisa ser o caso. Este guia tem o objetivo de aliviar sua dor e tornar as estatísticas acessíveis para os não inclinados à matemática.

Topo da página

Seu objetivo como cientista é encontrar respostas para as perguntas que lhe interessam. Isso geralmente é realizado por meio de testes de hipóteses. Por exemplo, se você está interessado no efeito de um determinado medicamento na fisiologia humana, uma pergunta que você pode fazer é: que efeito esse medicamento tem na frequência cardíaca? Com base em sua familiaridade pessoal, pesquisa de biblioteca ou intuição, você pode pensar que este medicamento causará um aumento na frequência cardíaca. Esta resposta de melhor suposição para nossa pergunta experimental é conhecida como uma hipótese experimental ou de pesquisa e desempenha um papel central no método científico. As hipóteses experimentais referem-se à causação imediata (mecanicista) ou final (evolucionária) dos fenômenos biológicos. Por outro lado, as hipóteses estatísticas são afirmações sobre quão gerais podem ser nossos fenômenos observados. Para usar a linguagem dos estatísticos, eles são afirmações sobre parâmetros populacionais (uma população, neste caso, é um conjunto completo de indivíduos, objetos ou medidas com alguma característica comum observável). O importante a lembrar sobre as hipóteses estatísticas é que elas podem ser avaliadas por testes estatísticos.

Existem dois tipos de hipóteses estatísticas com as quais você precisa se preocupar: uma hipótese nula e uma hipótese alternativa. Uma hipótese nula é uma hipótese de nenhuma diferença (daí a palavra nula). No exemplo acima, nossa hipótese nula poderia ser declarada como: & quot não há diferença na frequência cardíaca entre os indivíduos que receberam a droga e nosso grupo de controle. & Quot A hipótese alternativa é simplesmente o oposto: & quot há uma diferença na frequência cardíaca entre os indivíduos dado o medicamento e os controles. & quot. Essas são duas hipóteses mutuamente exclusivas e ambas devem ser declaradas antes da análise de seus dados. Se há uma mensagem para levar para casa todo este manuscrito, é esta: tudo o que as estatísticas fazem é atribuir um nível de probabilidade à sua hipótese nula. Em outras palavras, ele informa a probabilidade de sua hipótese nula ser verdadeira.

Topo da página

Os pesquisadores se arriscam com o teste de hipóteses. Sempre há uma chance de eles cometerem um erro porque estão lidando com probabilidades. Existem dois tipos de erros que podemos cometer. Poderíamos rejeitar nossa hipótese nula quando ela for realmente verdadeira (um erro Tipo I ou um erro a) ou deixar de rejeitar nossa hipótese nula quando ela for realmente falsa (um erro Tipo II). Intuitivamente, espero, você deve reconhecer que é pior cometer um erro Tipo I (dizendo que há uma diferença quando não há) do que um erro Tipo II (não detectar uma diferença). Para minimizar o risco de cometer um erro Tipo I, geralmente definimos nosso nível de probabilidade de corte para rejeitar a hipótese nula com um valor baixo. Esse valor de corte é conhecido como nível a ou nível de significância. Esse nível é geralmente definido em 0,05 por nenhuma outra razão que não seja geralmente aceito como um nível de risco razoável. Um nível a de 0,05 significa que há 5% de chance de nossa hipótese nula estar correta. Por outro lado, há 95% de chance de que esteja errado. Se nossa análise estatística produzir um nível de probabilidade menor que 0,05, rejeitaríamos nossa hipótese nula e aceitaríamos nossa hipótese alternativa. Se for maior que 0,05, não conseguimos rejeitar nossa hipótese nula (note que nunca é apropriado & quotacceptar & quotar sua hipótese nula). O primeiro caso (p & lt0,05) é geralmente referido como uma diferença significativa.

Topo da página

Os cientistas coletam dados (plural de datum) para responder às perguntas. O tipo de dados coletados será um determinante importante de qual teste estatístico você decidir usar. A biologia lida com coisas que contamos ou medimos. Como tal, existem dois tipos de dados com os quais devemos nos preocupar. Coisas que contamos, números discretos, incluem todos os tipos de dados categóricos. O número de indivíduos vistos em um determinado momento, o número de indivíduos com uma determinada cor, o número de homens e mulheres em sua classe são exemplos de dados discretos. Com este tipo de dados, um indivíduo pode pertencer a uma e apenas uma categoria. Por exemplo, nenhum indivíduo pode ser homem e mulher ao mesmo tempo. Essas categorias diferentes são discretas e a categoria a que cada indivíduo pertence é & quotconhecida sem erros & quot.

Os dados que medimos, números contínuos, não são conhecidos sem erro. Por exemplo, a distribuição do tamanho dos pinheiros em uma floresta depende da precisão com que as árvores foram medidas. Variáveis ​​contínuas incluem parâmetros comumente medidos como comprimentos, peso, volumes, tempo, taxas, etc. Como as variáveis ​​contínuas têm uma distribuição, elas têm a vantagem de serem analisadas por métodos estatísticos mais poderosos. No entanto, muitas vezes são mais difíceis de entender intuitivamente.

Topo da página

Voltemos ao exemplo dado na primeira seção: o efeito de um medicamento na frequência cardíaca. Nosso experimento consiste em dois grupos de tratamento, indivíduos que receberam a droga e controles que receberam um placebo. Existem 10 repetições em cada grupo de tratamento e os resultados (em batimentos por minuto) são apresentados a seguir.

Frequência cardíaca

Tratamento

1

2

3

4

5

6

7

8

9

10

Medicamento

76

88

72

83

85

81

94

90

78

85

Placebo (controle)

76

78

76

74

83

71

79

81

68

88

O que podemos concluir desta experiência? A droga faz com que o coração bata mais rápido? Parece que sim, mas devemos hesitar em concluir qualquer coisa ainda. A dificuldade surge porque nossos dados são variáveis. Para entender os dados contínuos, você deve abordar sua interpretação em três etapas: 1) plotar os dados, 2) resumir os dados e 3) analisar os dados.

As ferramentas pictóricas oferecem uma maneira conveniente de visualizar sistemas numéricos complexos. Portanto, nosso primeiro passo na interpretação desses dados será um gráfico denominado histograma ou distribuição de frequência. Vamos considerar o grupo de controle. Comece ordenando os dados e agrupando-os em classes de tamanho convenientes:

Ao controle:

68

71

74

76

76

78

79

81

83

88

O intervalo vai de 68-88 e podemos agrupar esses dados em intervalos de cinco batimentos por minuto e, em seguida, representar graficamente os resultados como um gráfico de barras:

Este gráfico tem uma bela forma simétrica. Se pegássemos um número infinito de amostras e o gráfico ainda exibisse essa simetria, os dados seriam "distribuídos normalmente". Normal, neste caso, não significa natural ou esperado. É simplesmente um nome dado a esses tipos de distribuição. Você deve examinar uma imagem de uma distribuição normal em qualquer livro de estatística para observar sua estrutura. Essa distribuição se tornará muito importante mais tarde.

Topo da página

A próxima etapa na interpretação de seus dados é resumi-los. Existem duas abordagens para resumir numericamente seus dados. Primeiro, precisamos descobrir qual número único representa melhor esses dados. Esta será nossa estimativa de tendência central. Então, precisamos encontrar uma maneira de estimar a dispersão em torno de nossa tendência central.

Existem três medidas comuns de tendência central. A média, mediana e a moda. O modo é o valor dos dados que ocorre com mais frequência e a mediana é o valor dos dados que ocorre exatamente no meio de todos os pontos de dados. Embora essas duas métricas sejam muito importantes e possam ser mais apropriadas do que a média em muitos casos, a média é a medida mais comumente usada em biologia. Como muitos de vocês sabem, a média é a média numérica de todos os pontos de dados. Para calculá-lo, você soma todos os valores e divide pelo número total de valores que você adicionou. Em nosso experimento, a média do grupo de controle é 77,4, enquanto a média dos indivíduos que receberam a droga experimental é 83,2.

Topo da página

A média é talvez a medida individual mais importante que você pode usar para representar dados variáveis. No entanto, usando apenas a média, você não tem ideia de quanta variação existe nos dados. Portanto, o próximo passo para resumir os dados é desenvolver uma medida de quanta difusão existe em torno da média. Vamos começar simplificando nosso conjunto de dados fazendo apenas as 5 primeiras observações do controle:

Frequência cardíaca

Tratamento

1

2

3

4

5

Quer dizer

Ao controle

76

78

76

74

83

77.4

Como estamos interessados ​​na disseminação dos dados em torno da média, a coisa mais intuitiva a fazer é tirar a diferença entre a média e cada observação:

76- 77.4 = -1.4
78- 77.4 = 0.6
76- 77.4 = -1.4
74- 77.4 = -3.4
83- 77.4 = 5.6

O que queremos fazer é estimar os desvios médios da média (ufa!). No entanto, você notará que a soma das diferenças acima é igual a zero (como é sempre o caso). Uma maneira simples de contornar isso é tirar a média dos desvios quadrados da seguinte forma:

Esse valor é chamado de variância (s2) e é uma medida de variação perfeitamente aceitável. No entanto, nossos dados originais estavam em batimentos por minuto, enquanto isso está em (batimentos por minuto) 2. Para obter algo com as mesmas unidades de nossos dados originais, tire a raiz quadrada:

Este último valor é chamado de desvio padrão e sua fórmula é dada como:

O desvio padrão e a variância são estimativas de variação muito úteis. No entanto, ambos são muito sensíveis ao tamanho da amostra. Amostras extremamente pequenas aumentam essas medidas de variação e amostras grandes as trunca. Para aliviar esse problema, você deve sempre usar o desvio padrão imparcial e a variância. Para desvincular essas equações, altere o denominador de n para n-1 da seguinte forma:

  • Primeiro, todas as observações são independentes de outras observações. Essa suposição é o produto de um experimento cuidadosamente projetado e não precisa de nenhum teste formal.
  • Em segundo lugar, os dados são normalmente distribuídos e podem ser facilmente testados examinando sua distribuição de frequência.
  • A suposição final é que as variações nos diferentes grupos de tratamento são as mesmas. Existem vários testes estatísticos disponíveis para testar esta suposição (por exemplo, o teste F-Max, o teste de Bartlett) e eles são frequentemente feitos com análises paramétricas em muitos programas estatísticos. No entanto, se você não tiver acesso a um computador, é perfeitamente aceitável examinar seus desvios padrão e procurar grupos de tratamento com desvios padrão que são muito maiores (por exemplo, uma ordem de magnitude maior) do que os outros.

Onde x1 e x2 são as médias, s21 e s22 são as variâncias não enviesadas e n1 e n2 são os tamanhos de amostra dos grupos de tratamento um e dois, respectivamente. Se n1 = n2 (o mesmo número de observações em cada grupo de tratamento), esta equação simplifica para:

As médias e variações de nosso experimento de frequência cardíaca estão resumidas na tabela a seguir:

Quer dizer

Variância (imparcial)

n

Medicamento

83.2

44.62

10

Ao controle

77.4

33.87

10

Substituindo esses valores na equação acima, descobrimos que t = 2,07. A seguir, procuramos o valor crítico de t na tabela no final deste capítulo. O valor crítico é determinado pelo nível de significância (geralmente 0,05) e os graus de liberdade (df), que é calculado para este teste como df = n1 + n2-2. Se a estatística t que calculamos a partir da equação acima for igual ou maior que o valor crítico, rejeitamos nossa hipótese nula e dizemos que & quotthere existem diferenças significativas entre esses grupos de tratamento. & Quot Em nosso caso T crit (a = 0,05, df = 18) = 2,101. Este número é maior do que nosso número calculado, portanto, falhamos em rejeitar nossa hipótese nula. Não podemos concluir com segurança que a droga teve efeito na frequência cardíaca.

Topo da página

B. Análise de Variância (ANOVA)

A análise de variância é usada para determinar se existem diferenças entre mais de dois grupos de tratamento. Embora os cálculos envolvidos na ANOVA não sejam difíceis, eles estão além do escopo deste guia. As pessoas interessadas são aconselhadas a consultar qualquer texto introdutório às estatísticas para ver como isso é feito.

As suposições da ANOVA são idênticas às do teste t e a estatística calculada é chamada de valor F, que possui um valor de probabilidade associado a ele. Tal como acontece com o teste t, se nosso valor de probabilidade for inferior a 0,05, rejeitamos nossa hipótese nula (neste caso, não há diferença entre os grupos de tratamento). Este valor de p apenas informa se há diferenças significativas entre os nossos grupos. Não nos diz onde estão essas diferenças. Em outras palavras, em um experimento com cinco grupos de tratamento e um valor de p significativo, sabemos que existem algumas diferenças entre esses grupos, mas não sabemos especificamente quais grupos são diferentes. Como resultado, ANOVA é geralmente realizada em conjunto com um teste post hoc de comparações múltiplas (por exemplo, teste de Bonferoni & # 146s ou teste de Tukey & # 146s) que dirá exatamente onde estão as diferenças.

Topo da página

C. Correlação e regressão

Em alguns casos, não estamos interessados ​​em saber se há ou não uma diferença entre dois grupos; em vez disso, queremos saber se duas variáveis ​​estão relacionadas. Por exemplo, suponha que você tenha os seguintes dados sobre velocidade de sprint e massa muscular para uma variedade de lagartos:

Lagarto

Massa muscular (g)

Velocidade de sprint (m / s)

1

5

12

2

4

10

3

6

14

4

7

15

5

3

7

Uma boa pergunta experimental para este tipo de dados é: & quot a velocidade do sprint aumenta com a massa muscular? & Quot Para responder a esta pergunta, a análise apropriada é um método de correlação denominado Pearson & # 146s r. A estatística r tem um intervalo de valores de -1,00 (uma correlação negativa perfeita) a 1,00 (uma correlação positiva perfeita). Uma correlação negativa significa que à medida que uma variável aumenta de tamanho, a outra diminui. Uma correlação positiva significa que à medida que uma variável aumenta, a outra também aumenta. Quando r = 0,00 não há relação entre as duas variáveis. A hipótese nula relacionada a esses tipos de experimentos é que não há relação entre as duas variáveis. Em outras palavras, r = 0,00. Este teste tem as mesmas três premissas que outras análises paramétricas, mas também tem a premissa adicional de que a relação entre as duas variáveis ​​é linear.

Topo da página

Os cálculos para Pearson & # 146s r são um processo bastante trabalhoso e a maioria prefere usar um computador para fazer os cálculos. Uma coisa importante a lembrar é que a correlação não implica causalidade. No exemplo acima, há uma forte correlação entre massa muscular e velocidade de sprint (convença-se em um computador). No entanto, seria errado concluir que um aumento na massa muscular causa um aumento na velocidade do sprint. Talvez os velocistas rápidos tenham músculos maiores porque correm mais (correr causa maior musculatura) ou talvez uma terceira variável, não medida, esteja causando a relação entre a velocidade do sprint e a massa muscular.

Para determinar a causa, você deve mudar a maneira como conduz seu experimento.Se quisermos examinar se um aumento na massa muscular causa um aumento na velocidade do sprint, precisamos manipular a massa muscular e examinar os efeitos na velocidade do sprint. Se formos capazes de projetar tal experimento, a análise apropriada seria uma regressão que é computacionalmente semelhante a Pearson & # 146s r (e igualmente trabalhosa). Em uma análise de regressão, a estatística de teste é chamada de coeficiente de variação (R2). O coeficiente de variação tem uma faixa de valores de 0% -100%. Um R2 de 75% significa que & quot75% da variação na variável dependente (a variável que você mede) é devido à variação na variável independente (a variável que você manipula). & Quot É importante perceber isso só porque você executa uma regressão não necessariamente o torna uma relação causal. Para demonstrar a causalidade (e usar uma regressão), você deve realizar um experimento controlado ou ter uma razão a priori muito boa para assumir a causalidade.

Topo da página

II. Estatística não paramétrica

A maioria das estatísticas não paramétricas foi desenvolvida apenas recentemente. Eles são muito simples de usar, não requerem grandes conjuntos de dados e têm poucas suposições subjacentes. Embora eles não sejam tão poderosos quanto as estatísticas paramétricas (ou seja, eles não são muito bons em detectar pequenas diferenças entre grupos), na maioria dos casos eles são perfeitamente aceitáveis. Todos os testes não paramétricos assumem independência das observações. Em outras palavras, sua observação anterior não influencia as observações subsequentes. Se você contar o número de pinheiros em uma floresta em 1996 e novamente em 1997, não temos duas medidas independentes de número de pinheiros porque o número observado em 1996 influenciará fortemente o número observado em 1997. No entanto, contando o número de pinheiros de dois locais diferentes serão independentes um do outro.

Topo da página

A. Teste Qui-Quadrado de Uma Amostra

O teste de amostra Qui-quadrado um é usado com dados discretos para determinar se as contagens de frequência observadas diferem das contagens de frequência esperadas. Para determinar os valores de c2, use a seguinte fórmula:

Onde O é a frequência observada, E é a frequência esperada e K é o número de categorias. Por exemplo, suponha que você execute o seguinte cruzamento mono-híbrido:

vg + vg X vg + vg

onde vg + é o alelo de tipo selvagem e vg é o alelo para asas vestigiais. Nossa hipótese nula é que não há diferença entre a proporção observada e a proporção esperada de um cruzamento mono-híbrido (ou seja, 3: 1). A progênie deste cruzamento é pontuada da seguinte forma:

Tipo selvagem = 750 moscas
Vestigial = 125 moscas

Estas são as nossas frequências observadas. A proporção esperada de um cruzamento mono-híbrido é de 3: 1. Portanto, nosso número esperado de moscas de tipo selvagem é (3/4) (875) = 656,25. Nosso número esperado de moscas vestigiais é (1/4) (875) = 218,75. Substituindo esses valores na equação acima, c2 = 53,6. Os graus de liberdade (df) para este teste é o número de categorias menos um (k-1). Voltando à tabela de estatísticas, o valor crítico de c2 para 1 df e um nível de significância de 0,05 é 3,84. Como nosso valor calculado é muito maior do que o valor crítico, rejeitamos nossa hipótese nula.

B. Teste Qui-Quadrado de Duas Amostras

Suponha que temos um conjunto de observações que podem ser classificados de acordo com dois tipos diferentes de atributos. Por exemplo, suponha que capturamos todas as salamandras em uma floresta e as classificamos de acordo com as espécies e o tipo de substrato em que foram encontradas. Podemos estar interessados ​​em saber se existe uma associação entre espécie e substrato. Claro, nossa hipótese nula é que não haverá diferença entre as escolhas de substrato entre as diferentes espécies. Você coleta os seguintes dados:


Discussão

Neste estudo, propomos GxEsum, um novo método GxE de genoma completo, cuja eficiência computacional é mil vezes maior do que os métodos existentes. A estimativa de GxE usando estatísticas resumidas GWAS tem grande flexibilidade na aplicação do método a múltiplas características e doenças complexas. O método proposto e a teoria foram verificados explicitamente usando simulações abrangentes que foram realizadas para ambos os traços quantitativos e doença binária. Além disso, mostramos que a taxa de erro tipo I do método proposto não foi inflada pelo viés do colisor moderado a grave [18], o que causou uma subestimação substancial da herdabilidade mostrada em nossa simulação (Arquivo adicional 1: Figuras S10 e S11).

Na análise dos dados reais, mostramos que os efeitos genéticos do IMC foram modulados significativamente pelo NEU, o que está de acordo com estudos anteriores [9]. Nota-se que a significância do GxE foi melhorada porque utilizamos um tamanho de amostra maior, em comparação com os estudos anteriores. Nosso resultado concorda com Robinson et al. [8] que não encontraram nenhuma evidência GxE significativa para a idade ao analisar o IMC usando o UK Biobank no qual os participantes tinham entre 40 e 69 anos no momento do recrutamento. No entanto, um conjunto de dados com uma faixa mais ampla de idades é desejável, o que aumentaria o poder de detectar GxE na idade. Por exemplo, um GxE significativo foi encontrado em uma análise de IMC-idade usando um conjunto de dados incluindo amostras com idades entre 18-80 no recrutamento [8].

Para hipertensão e diabetes tipo 2, sua relação causal com o IMC foi relatada por uma série de estudos usando randomização Mendeliana [24, 28, 29]. No entanto, não ficou claro se a relação causal foi devido a GxE ou outra coisa, por exemplo, efeitos não genéticos desconhecidos da doença modulados pelo status de IMC. Aqui, mostramos que a relação causal entre hipertensão e IMC e entre diabetes tipo 2 e IMC relatada em estudos anteriores [24, 28, 29] pode ser parcialmente devido aos efeitos de interação GxE em todo o genoma. A variação da interação GxE para diabetes tipo 2 é substancialmente maior do que para hipertensão quando se usa o IMC como exposição ambiental. Essa observação concorda com Hyppönen et al. [24] relatando que o escore de risco genético do IMC está mais fortemente associado ao diabetes tipo 2 do que à hipertensão. Em contraste, não há evidência significativa de GxE em todo o genoma para hipertensão-RCQ, hipertensão-BFP, diabetes tipo 2-PAD ou relação causal diabetes tipo 2-PAS que foi observada em estudos de randomização mendeliana [29,30,31] . Isso não é totalmente inesperado porque foi relatado que diabetes tipo 2 ou hipertensão estão mais significativamente associados ao IMC do que outras variáveis ​​[24, 28, 29].

A interceptação estimada de GxEsum deve ser interpretada com cautela. Mostramos que as interceptações estimadas foram imparciais a partir dos valores teoricamente previstos ao usar a simulação de características quantitativas, como uma prova de conceito, ou seja, a variância fenotípica explicada pelos efeitos RxE ( ( _ < tau_1> ^ 2 )) pode ser obtido como ( _ < tau_1> ^ 2 ) = (interceptar − 1 − 2 ( _^ 2 )) / 2 da Eq. (4), ou mais geralmente, ( _ < tau_1> ^ 2 ) = (interceptar −1 − (kurtose − 1) ( _^2 ) )/(kurtose - 1) da Eq. (5). No entanto, em análises de dados reais, pode haver efeitos de confusão adicionais, como efeitos de escala, heterocedasticidade residual ou / e heterogeneidade da amostra que são frequentemente atribuídos a fatores desconhecidos. Além disso, ao usar características binárias, efeitos de escala substanciais podem ser gerados (efeitos estatísticos RxE) porque apenas o status afetado e não afetado são observados e as diferenças individuais dentro do grupo afetado ou não afetado são ignoradas. Esses efeitos de confusão adicionais e efeitos de escala estatística são capturados e estimados como uma interceptação em GxEsum [10], resultando em estimativas RxE não confiáveis. Nota-se que a estimativa de RxE não é o principal interesse de GxEsum e pode ser estimada de forma mais confiável em RNM que é projetado para modelar GxE e RxE.

Os métodos GxE existentes requerem dados de genótipos em nível individual que muitas vezes têm uma restrição para compartilhar, e sua carga computacional é tipicamente alta. Além disso, não é claro como eles funcionam quando a representatividade das amostras é limitada, por exemplo, viés de seleção devido a um colisor nas amostras do Biobanco do Reino Unido. Ao contrário, a abordagem proposta, GxEsum, é computacionalmente eficiente e pode detectar a interação GxE corretamente para características de doença quantitativas e binárias, mesmo quando há viés de moderado a servidor do colisor. Se as estatísticas resumidas de GWAS dos efeitos aditivos e de interação principais estimados puderem ser disponibilizados publicamente, uma meta-análise em várias coortes pode ser possível para um estudo GxE cada vez maior (como o contexto da meta-análise de herdabilidade LDSC SNP). Existem alguns problemas de que a medida da variável ambiental pode não ser padronizada nas coortes do estudo, e a variável ambiental pode até mesmo não estar disponível em algumas coortes. No entanto, essas questões podem ser remediadas quando as informações de exposome, que é a medida padronizada de todas as exposições para indivíduos, complementadas com o genoma, estiverem disponíveis.

Existe um método GxE que pode usar estatísticas de resumo GWAS, ou seja, VarExp, que foi publicado recentemente. Enquanto VarExp se beneficia computacionalmente do uso de estatísticas resumidas de GWAS, ele precisa inverter a matriz de correlação entre SNPs, o que evita o uso de um grande número de SNPs [32]. Além disso, as estruturas teóricas de GxEsum e VarExp são fundamentalmente diferentes no sentido de que o último não leva em consideração efeitos de confusão, como efeitos de escala, heterogeneidade residual ou RxE que podem ser capturados pela interceptação estimada de GxEsum. Finalmente, o desempenho do VarExp foi verificado com uma magnitude limitada de efeitos de interação de até 1,5% e 0,25% da variância fenotípica para características quantitativas e binárias, respectivamente [32].

Como RNM, GxEsum pode ajustar exposições ambientais de tal forma que os efeitos genéticos de uma característica podem ser modelados como uma função não linear de um gradiente ambiental contínuo. O modificador potencial dos efeitos genéticos não se limita às exposições ambientais, mas pode ser estendido a novas variáveis ​​de dados multimídia, como expressão gênica, expressão proteica e dados de metilação [33, 34]. Os escores de risco poligênico [35, 36] também podem ser considerados como uma variável ambiental no modelo. Esta nova abordagem pode permitir dissecar uma arquitetura biológica latente de um traço complexo em uma futura aplicação do GxEsum.


Assista o vídeo: LISTA 2. ESTRUTURA DE DADOS. QUESTÃO 06 (Julho 2022).


Comentários:

  1. Mazulkis

    Muito certo! Parece-me que é uma excelente ideia. Concordo com você.

  2. Viraj

    Você visitou uma ideia maravilhosa

  3. Salhdene

    Nele algo está. Obrigado pela informação, posso ajudá-lo sinônimo de algo?

  4. Mora

    Exatamente as mensagens

  5. Abdul-Mujib

    Eu acho que você não está certo. Estou garantido. Vamos discutir isso. Escreva para mim em PM, vamos conversar.

  6. Inglebert

    Apenas ouse fazer isso mais uma vez!

  7. Doren

    Eu posso recomendar ir ao site, onde há muitos artigos sobre o tópico que lhe interessa.



Escreve uma mensagem