Lei de Taylor - Taylor's law

A lei de potência de Taylor é uma lei empírica em ecologia que relaciona a variância do número de indivíduos de uma espécie por unidade de área de habitat à média correspondente por uma relação de lei de potência . Recebeu o nome do ecologista que o propôs pela primeira vez em 1961, Lionel Roy Taylor (1924–2007). O nome original de Taylor para esse relacionamento era a lei da média.

Definição

Esta lei foi originalmente definida para sistemas ecológicos, especificamente para avaliar o agrupamento espacial de organismos. Para uma contagem de população com média e variância , a lei de Taylor é escrita

onde um e b são ambas constantes positivas. Taylor propôs essa relação em 1961, sugerindo que o expoente b seja considerado um índice de agregação específico da espécie. Esta lei de potência foi posteriormente confirmada para muitas centenas de espécies.

A lei de Taylor também foi aplicada para avaliar as mudanças dependentes do tempo nas distribuições da população. A variação relacionada com as leis de potência média também foi demonstrada em vários sistemas não ecológicos:

História

O primeiro uso de um gráfico log-log duplo foi por Reynolds em 1879 na aerodinâmica térmica. Pareto usou um gráfico semelhante para estudar a proporção de uma população e sua renda.

O termo variância foi cunhado por Fisher em 1918.

Biologia

Fisher em 1921 propôs a equação

Neyman estudou a relação entre a média e a variância da amostra em 1926. Barlett propôs uma relação entre a média e a variância da amostra em 1936

Smith em 1938, enquanto estudava os rendimentos das colheitas, propôs uma relação semelhante à de Taylor. Esse relacionamento era

onde V x é a variância da produtividade para parcelas de x unidades, V 1 é a variância da produtividade por unidade de área ex é o tamanho das parcelas. A inclinação ( b ) é o índice de heterogeneidade. O valor de b nesta relação está entre 0 e 1. Onde os rendimentos são altamente correlacionados, b tende a 0; quando não estão correlacionados, b tende a 1.

Bliss em 1941, Fracker e Brischle em 1941 e Hayman & Lowe em 1961 também descreveram o que agora é conhecido como lei de Taylor, mas no contexto de dados de uma única espécie.

LR Taylor (1924–2007) foi um entomologista inglês que trabalhou no Rothamsted Insect Survey para controle de pragas. Seu artigo de 1961 usou dados de 24 artigos publicados entre 1936 e 1960. Esses artigos consideraram uma variedade de configurações biológicas: lesões de vírus , macrozooplâncton , vermes e sinfilídeos no solo , insetos no solo, nas plantas e no ar, ácaros nas folhas , carrapatos em ovelhas e peixes no mar . Nesses artigos, o valor de b fica entre 1 e 3. Taylor propôs a lei de potência como uma característica geral da distribuição espacial dessas espécies. Ele também propôs uma hipótese mecanicista para explicar esta lei. Entre os artigos citados estavam os de Bliss, Yates e Finney.

As tentativas iniciais de explicar a distribuição espacial dos animais foram baseadas em abordagens como os modelos populacionais estocásticos de Bartlett e a distribuição binomial negativa que poderia resultar dos processos de nascimento-morte . A nova explicação de Taylor foi baseada na suposição de um comportamento migratório e congregatório equilibrado dos animais. Sua hipótese era inicialmente qualitativa, mas à medida que evoluiu tornou-se semiquantitativa e foi apoiada por simulações. Ao propor que o comportamento animal era o principal mecanismo por trás do agrupamento de organismos, Taylor parecia ter ignorado seu próprio relato de agrupamento visto com placas do vírus da necrose do tabaco.

Seguindo as publicações iniciais de Taylor, várias hipóteses alternativas para a lei de potência foram apresentadas. Hanski propôs um modelo de passeio aleatório, modulado pelo suposto efeito multiplicativo da reprodução. O modelo de Hanski previu que o expoente da lei de potência seria restrito a uma variação próxima do valor de 2, o que parecia inconsistente com muitos valores relatados.

Anderson et al formularam um modelo estocástico simples de nascimento, morte, imigração e emigração que gerou uma função de variância quadrática. Em resposta a este modelo, Taylor argumentou que tal processo de Markov preveria que o expoente da lei de potência variaria consideravelmente entre as observações replicadas, e que tal variabilidade não havia sido observada.

Nessa época, porém, foram levantadas preocupações em relação à variabilidade estatística com medições do expoente da lei de potência, e a possibilidade de que as observações de uma lei de potência refletissem mais artefato matemático do que um processo mecanicista. Taylor et al responderam com uma publicação adicional de extensas observações que ele alegou refutar as preocupações de Downing.

Além disso, Thórarinsson publicou uma crítica detalhada do modelo comportamental animal, observando que Taylor havia modificado seu modelo várias vezes em resposta às preocupações levantadas, e que algumas dessas modificações eram inconsistentes com as versões anteriores. Thórarinsson também afirmou que Taylor confundiu números de animais com densidade e que Taylor interpretou incorretamente simulações que foram construídas para demonstrar seus modelos como validação.

Kemp revisou uma série de modelos estocásticos discretos baseados no binômio negativo, Neyman tipo A e distribuições Polya-Aeppli que, com o ajuste adequado dos parâmetros, poderiam produzir uma variância para a lei da potência média. Kemp, no entanto, não explicou as parametrizações de seus modelos em termos mecanicistas. Outros modelos relativamente abstratos para a lei de Taylor se seguiram.

Uma série de questões estatísticas adicionais foram levantadas em relação à lei de Taylor, com base na dificuldade com dados reais em distinguir entre a lei de Taylor e outras variâncias para funções médias, bem como a imprecisão dos métodos de regressão padrão.

Relatórios também começaram a se acumular onde a lei de Taylor havia sido aplicada a dados de séries temporais. Perry mostrou como as simulações baseadas na teoria do caos poderiam produzir a lei de Taylor, e Kilpatrick & Ives forneceram simulações que mostraram como as interações entre diferentes espécies podem levar à lei de Taylor.

Outros relatórios apareceram onde a lei de Taylor foi aplicada à distribuição espacial de plantas e populações bacterianas. Como com as observações do vírus da necrose do tabaco mencionado anteriormente, essas observações não eram consistentes com o modelo de comportamento animal de Taylor.

Anteriormente, foi mencionado que a variância da função de potência média foi aplicada a sistemas não ecológicos, sob a rubrica da lei de Taylor. Para fornecer uma explicação mais geral para a gama de manifestações da lei de potência, foi proposta uma hipótese baseada nas distribuições Tweedie , uma família de modelos probabilísticos que expressam uma relação de função de poder inerente entre a variância e a média. Detalhes sobre essa hipótese serão fornecidos na próxima seção.

Uma explicação alternativa adicional para a lei de Taylor foi proposta por Cohen et al , derivada do modelo de crescimento de Lewontin Cohen . Este modelo foi usado com sucesso para descrever a variabilidade espacial e temporal das populações florestais.

Outro artigo de Cohen e Xu que a amostragem aleatória em blocos onde a distribuição subjacente é distorcida com os primeiros quatro momentos finitos dá origem à lei de Taylor. Fórmulas aproximadas para os parâmetros e suas variâncias também foram derivadas. Essas estimativas foram testadas novamente com dados da Floresta Black Rock e consideradas em concordância razoável.

Seguindo as publicações iniciais de Taylor, várias hipóteses alternativas para a lei de potência foram apresentadas. Hanski propôs um modelo de passeio aleatório, modulado pelo suposto efeito multiplicativo da reprodução. O modelo de Hanski previu que o expoente da lei de potência seria restrito a uma variação próxima do valor de 2, o que parecia inconsistente com muitos valores relatados. Anderson et al formularam um modelo estocástico simples de nascimento, morte, imigração e emigração que gerou uma função de variância quadrática. O modelo de crescimento Lewontin Cohen . é outra explicação proposta. A possibilidade de que as observações de uma lei de potência podem refletir mais artefato matemático do que um processo mecanístico foi levantada. A variação nos expoentes da Lei de Taylor aplicada a populações ecológicas não pode ser explicada ou prevista apenas com base em fundamentos estatísticos. A pesquisa mostrou que a variação dentro dos expoentes da lei de Taylor para a comunidade de peixes do Mar do Norte varia com o ambiente externo, sugerindo que os processos ecológicos determinam pelo menos parcialmente a forma da lei de Taylor.

Física

Na literatura de física, a lei de Taylor é chamada de escala de flutuação . Eisler et al , em uma tentativa posterior de encontrar uma explicação geral para a escala de flutuação, propuseram um processo que chamaram de inomogeneidade de impacto, no qual eventos frequentes estão associados a impactos maiores. No apêndice B do artigo de Eisler, no entanto, os autores observaram que as equações para a inomogeneidade do impacto geraram as mesmas relações matemáticas encontradas com as distribuições Tweedie.

Outro grupo de físicos, Fronczak e Fronczak, derivou a lei de potência de Taylor para a escala de flutuação dos princípios da física estatística de equilíbrio e não-equilíbrio . Sua derivação foi baseada em suposições de quantidades físicas como energia livre e um campo externo que causou o agrupamento de organismos biológicos. A demonstração experimental direta dessas quantidades físicas postuladas em relação à agregação animal ou vegetal ainda não foi alcançada. Pouco tempo depois, foi apresentada uma análise do modelo de Fronczak e Fronczak que mostrou que suas equações levam diretamente às distribuições Tweedie, um achado que sugere que Fronczak e Fronczak possivelmente forneceram uma derivação de entropia máxima dessas distribuições.

Matemática

A lei de Taylor mostrou ser válida para números primos que não excedem um determinado número real. Esse resultado se mostrou válido para os primeiros 11 milhões de números primos. Se a conjectura dos primos gêmeos Hardy-Littlewood for verdadeira, essa lei também se aplica aos primos gêmeos.

Nomenclatura da lei

A própria lei leva o nome do ecologista Lionel Roy Taylor (1924–2007). O nome Taylor's law foi cunhado por Southwood em 1966. O nome original de Taylor para essa relação era a lei da média

A hipótese Tweedie

Mais ou menos na época em que Taylor corroborava suas observações ecológicas, MCK Tweedie , um estatístico e físico médico britânico, estava investigando uma família de modelos probabilísticos que agora são conhecidos como distribuições Tweedie . Como mencionado acima, essas distribuições são todas caracterizadas por uma variância para significar lei de potência matematicamente idêntica à lei de Taylor.

A distribuição Tweedie mais aplicável a observações ecológicas é a distribuição Poisson-gama composta , que representa a soma de N variáveis ​​aleatórias independentes e distribuídas de forma idêntica com uma distribuição gama, onde N é uma variável aleatória distribuída de acordo com uma distribuição de Poisson. Na forma aditiva, sua função geradora de cumulantes (CGF) é:

onde κ b ( θ ) é a função cumulante,

o expoente Tweedie

s é a variável da função geradora, e θ e λ são os parâmetros canônicos e de índice, respectivamente.

Esses dois últimos parâmetros são análogos aos parâmetros de escala e forma usados ​​na teoria da probabilidade. Os cumulantes desta distribuição podem ser determinados por diferenciações sucessivas do CGF e, em seguida, substituindo s = 0 nas equações resultantes. O primeiro e o segundo cumulantes são a média e a variância, respectivamente, e, portanto, o composto Poisson-gama CGF produz a lei de Taylor com a constante de proporcionalidade

A função de distribuição cumulativa Poisson-gama composta foi verificada para dados ecológicos limitados através da comparação da função de distribuição teórica com a função de distribuição empírica. Vários outros sistemas, demonstrando variância para significar leis de potência relacionadas à lei de Taylor, foram testados de forma semelhante para a distribuição composta de Poisson-gama.

A principal justificativa para a hipótese Tweedie reside nas propriedades de convergência matemática das distribuições Tweedie. O teorema de convergência Tweedie requer que as distribuições Tweedie atuem como focos de convergência para uma ampla gama de processos estatísticos. Como conseqüência desse teorema de convergência, processos baseados na soma de múltiplos pequenos saltos independentes tenderão a expressar a lei de Taylor e obedecer a uma distribuição Tweedie. Um teorema limite para variáveis ​​independentes e distribuídas de forma idêntica, como o teorema de convergência de Tweedie, pode então ser considerado fundamental em relação aos modelos populacionais ad hoc , ou modelos propostos com base em simulação ou aproximação.

Essa hipótese permanece controversa; abordagens dinâmicas populacionais mais convencionais parecem preferidas entre os ecologistas, apesar do fato de que a distribuição de Poisson composta de Tweedie pode ser aplicada diretamente aos mecanismos dinâmicos populacionais.

Uma dificuldade com a hipótese Tweedie é que o valor de b não varia entre 0 e 1. Valores de b <1 são raros, mas foram relatados.

Formulação matemática

Em símbolos

onde s i 2 representa a variação da densidade do i th da amostra, m i representa a média densidade do i th da amostra e um e b são constantes.

Na forma logarítmica

Invariância de escala

A lei de Taylor é invariante de escala. Se a unidade de medida é alterada por um fator constante c , o expoente ( b ) permanece inalterado.

Para ver isso, deixe y = cx . Então

A lei de Taylor expressa na variável original ( x ) é

e na variável reescalonada ( y ) é

Foi demonstrado que a lei de Taylor é a única relação entre a média e a variância que é invariante de escala.

Extensões e refinamentos

Um refinamento na estimativa da inclinação b foi proposto por Rayner.

onde é o coeficiente de correlação de momento de Pearson entre e , é a razão das variâncias da amostra em e e é a razão dos erros em e .

A regressão de mínimos quadrados ordinários assume que  φ  = ∞. Isso tende a subestimar o valor de b porque as estimativas de e estão sujeitas a erros.

Uma extensão da lei de Taylor foi proposta por Ferris et al quando várias amostras são coletadas

onde s 2 e m são a variância e a média respectivamente, b , c e d são constantes e n é o número de amostras tomadas. Até o momento, esta extensão proposta não foi verificada para ser tão aplicável quanto a versão original da lei de Taylor.

Pequenas amostras

Uma extensão desta lei para pequenas amostras foi proposta por Hanski. Para pequenas amostras, a variação de Poisson ( P ) - a variação que pode ser atribuída à variação de amostragem - pode ser significativa. Seja S a variância total e seja V a variância biológica (real). Então

Assumindo a validade da lei de Taylor, temos

Porque na distribuição de Poisson a média é igual à variância, temos

Isso nos dá

Isso se assemelha muito à sugestão original de Barlett.

Interpretação

Os valores de inclinação ( b ) significativamente> 1 indicam aglomeração de organismos.

Em dados com distribuição de Poisson , b = 1. Se a população segue uma distribuição lognormal ou gama , então  b  = 2.

Para populações que estão experimentando uma variabilidade ambiental per capita constante, a regressão de log (variância) versus log (abundância média) deve ter uma linha com b  = 2.

A maioria das populações que foram estudadas tem b  <2 (geralmente 1,5-1,6), mas os valores de 2 foram relatados. Ocasionalmente, casos com b > 2 foram relatados. b valores abaixo de 1 são incomuns, mas também foram relatados ( b = 0,93).

Foi sugerido que o expoente da lei ( b ) é proporcional à assimetria da distribuição subjacente. Esta proposta criticou: trabalho adicional parece ser indicado.

Notas

A origem da inclinação ( b ) nesta regressão permanece obscura. Duas hipóteses foram propostas para explicá-lo. Sugere-se que b surge do comportamento da espécie e é uma constante para aquela espécie. A alternativa sugere que é dependente da população amostrada. Apesar do número considerável de estudos realizados sobre esta lei (mais de 1000), esta questão permanece em aberto.

Sabe-se que tanto a quanto b estão sujeitos a mudanças devido à dispersão específica por idade, mortalidade e tamanho da unidade amostral.

Esta lei pode não ser adequada se os valores forem pequenos. Por esta razão, uma extensão da lei de Taylor foi proposta por Hanski que melhora o ajuste da lei de Taylor em baixas densidades.

Extensão para amostragem de cluster de dados binários

Uma forma da lei de Taylor aplicável a dados binários em clusters (eq, quadrats) foi proposta. Em uma distribuição binomial, a variância teórica é

onde (var bin ) é a variância binomial, n é o tamanho da amostra por cluster e p é a proporção de indivíduos com uma característica (como doença), uma estimativa da probabilidade de um indivíduo ter aquela característica.

Uma dificuldade com dados binários é que a média e a variância, em geral, têm uma relação particular: à medida que a proporção média de indivíduos infectados aumenta acima de 0,5, a variância diminui.

Sabe-se agora que a variância observada (var obs ) muda como uma função de potência de (var bin ).

Hughes e Madden notaram que se a distribuição for Poisson, a média e a variância são iguais. Como esse claramente não é o caso em muitas amostras de proporções observadas, eles assumiram uma distribuição binomial. Eles substituíram a média na lei de Taylor pela variância binomial e, em seguida, compararam essa variância teórica com a variância observada. Para dados binomiais, eles mostraram que var obs = var bin com superdispersão, var obs  > var bin .

Em símbolos, a modificação de Hughes e Madden à lei de Tyalor foi

Na forma logarítmica, esta relação é

Esta última versão é conhecida como lei de potência binária.

Um passo fundamental na derivação da lei de potência binária por Hughes e Madden foi a observação feita por Patil e Stiteler de que a razão variância-média usada para avaliar a superdispersão de contagens ilimitadas em uma única amostra é na verdade a razão de dois variâncias: a variância observada e a variância teórica para uma distribuição aleatória. Para contagens ilimitadas, a distribuição aleatória é o Poisson. Assim, a lei de potência de Taylor para uma coleção de amostras pode ser considerada como uma relação entre a variância observada e a variância de Poisson.

De forma mais ampla, Madden e Hughes consideraram a lei de potência como a relação entre duas variâncias, a variância observada e a variância teórica para uma distribuição aleatória. Com dados binários, a distribuição aleatória é binomial (não Poisson). Assim, a lei de potência de Taylor e a lei de potência binária são dois casos especiais de relações gerais de lei de potência para heterogeneidade.

Quando tanto um e b são iguais a 1, então um padrão espacial aleatória em pequena escala é sugerido e é melhor descrita pela distribuição binomial. Quando b = 1 e a > 1, há superdispersão (agregação em pequena escala). Quando b é> 1, o grau de agregação varia com p . Turechek et al mostraram que a lei da potência binária descreve vários conjuntos de dados em patologia vegetal. Em geral, b é maior que 1 e menor que 2.

O ajuste desta lei foi testado por simulações. Esses resultados sugerem que, em vez de uma única linha de regressão para o conjunto de dados, uma regressão segmentar pode ser um modelo melhor para distribuições genuinamente aleatórias. No entanto, essa segmentação ocorre apenas para distâncias de dispersão de alcance muito curto e tamanhos de quadrat grandes. A quebra de linha ocorre apenas em p muito próximo de 0.

Uma extensão desta lei foi proposta. A forma original desta lei é simétrica, mas pode ser estendida a uma forma assimétrica. Usando simulações, a forma simétrica se ajusta aos dados quando há correlação positiva do estado de doença dos vizinhos. Onde houver uma correlação negativa entre a probabilidade de vizinhos serem infectados, a versão assimétrica se ajusta melhor aos dados.

Formulários

Por causa da ocorrência onipresente da lei de Taylor na biologia, ela encontrou uma variedade de usos, alguns dos quais listados aqui.

Recomendações de uso

Foi recomendado com base em estudos de simulação em aplicativos que testam a validade da lei de Taylor para uma amostra de dados que:

(1) o número total de organismos estudados seja> 15
(2) o número mínimo de grupos de organismos estudados seja> 5
(3) a densidade dos organismos deve variar em pelo menos 2 ordens de magnitude dentro da amostra

Populações distribuídas aleatoriamente

É comum assumir (pelo menos inicialmente) que uma população está distribuída aleatoriamente no ambiente. Se uma população for distribuída aleatoriamente, a média ( m ) e a variância ( s 2 ) da população são iguais e a proporção de amostras que contêm pelo menos um indivíduo ( p ) é

Quando uma espécie com um padrão agregado é comparada com outra que é distribuída aleatoriamente com densidades globais iguais, p será menor para as espécies com o padrão de distribuição agregado. Inversamente, ao comparar uma espécie distribuída uniformemente e outra aleatoriamente, mas em densidades gerais iguais, p será maior para a população distribuída aleatoriamente. Isso pode ser testado graficamente plotando p contra m .

Wilson e Room desenvolveram um modelo binomial que incorpora a lei de Taylor. O relacionamento básico é

onde o log é levado para a base e .

Incorporando a lei de Taylor, esta relação torna-se

Estimador de parâmetro de dispersão

O parâmetro de dispersão comum ( k ) da distribuição binomial negativa é

onde é a média da amostra e é a variância. Se 1 / k for> 0, a população é considerada agregada; 1 / k = 0 ( s 2 = m ) a população é considerada distribuída aleatoriamente (Poisson) e se 1 / k for <0 a população é considerada uniformemente distribuída. Nenhum comentário sobre a distribuição pode ser feito se k = 0.

Wilson e Room assumindo que a lei de Taylor aplicada à população deram um estimador alternativo para k :

onde a e b são as constantes da lei de Taylor.

Jones usando a estimativa de k acima juntamente com a relação que Wilson e Room desenvolveram para a probabilidade de encontrar uma amostra com pelo menos um indivíduo

derivou um estimador para a probabilidade de uma amostra contendo x indivíduos por unidade de amostragem. A fórmula de Jones é

em que P ( x ) representa a probabilidade de encontrar x indivíduos por unidade de amostragem, k é estimado a partir da equação Wilon e quarto e m é a média da amostra. A probabilidade de encontrar zero indivíduos P (0) é estimada com a distribuição binomial negativa

Jones também fornece intervalos de confiança para essas probabilidades.

onde CI é o intervalo de confiança, t é o valor crítico obtido da distribuição t e N é o tamanho total da amostra.

Família de distribuições Katz

Katz propôs uma família de distribuições (a família Katz ) com 2 parâmetros ( w 1 , w 2 ). Esta família de distribuições inclui as distribuições Bernoulli , Geométrica , Pascal e Poisson como casos especiais. A média e a variância de uma distribuição de Katz são

onde m é a média e s 2 é a variância da amostra. Os parâmetros podem ser estimados pelo método dos momentos a partir dos quais temos

Para uma distribuição de Poisson w 2 = 0 ew 1 = λ o parâmetro da distribuição de Possion. Essa família de distribuições também é conhecida como família de distribuições Panjer.

A família Katz está relacionada à família de distribuições Sundt-Jewel:

Os únicos membros da família Sundt-Jewel são as distribuições de séries de Poisson, binomial, binomial negativa (Pascal), binomial negativa truncada estendida e logarítmica .

Se a população obedece a uma distribuição de Katz, então os coeficientes da lei de Taylor são

Katz também introduziu um teste estatístico

onde J n é a estatística de teste, s 2 é a variância da amostra, m é a média da amostra en é o tamanho da amostra. J n é normalmente distribuído assintoticamente com média zero e variância unitária. Se a amostra tiver distribuição de Poisson, J n = 0; valores de J n <0 e> 0 indicam dispersão insuficiente e excessiva, respectivamente. A superdispersão é freqüentemente causada por heterogeneidade latente - a presença de múltiplas subpopulações dentro da população da qual a amostra é retirada.

Esta estatística está relacionada à estatística de Neyman-Scott

que é conhecido por ser assintoticamente normal e a estatística qui-quadrada condicional (teste de dispersão de Poisson)

que é conhecido por ter uma distribuição qui-quadrada assintótica com n - 1 graus de liberdade quando a população está distribuída por Poisson.

Se a população obedecer à lei de Taylor, então

Tempo para a extinção

Se a lei de Taylor for aplicada, é possível determinar o tempo médio para a extinção local. Este modelo assume um passeio aleatório simples no tempo e a ausência de regulação populacional dependente da densidade.

Deixe onde N t +1 e N t são os tamanhos da população no tempo t  + 1 e t respectivamente e r é o parâmetro igual ao aumento anual (diminuição da população). Então

onde está a variação de .

Deixe ser uma medida da abundância das espécies (organismos por unidade de área). Então

onde T E é o tempo médio para a extinção local.

A probabilidade de extinção no tempo t é

Tamanho mínimo da população necessário para evitar a extinção

Se uma população é distribuída lognormalmente , a média harmônica do tamanho da população ( H ) está relacionada à média aritmética ( m )

Dado que H deve ser> 0 para a população persistir, então, reorganizando, temos

é o tamanho mínimo da população para a espécie persistir.

A suposição de uma distribuição lognormal parece se aplicar a cerca de metade de uma amostra de 544 espécies. sugerindo que é pelo menos uma suposição plausível.

Estimadores de tamanho de amostragem

O grau de precisão ( D ) é definido como sendo s / m , onde s é o desvio padrão e m é a média. O grau de precisão é conhecido como coeficiente de variação em outros contextos. Em pesquisa ecológica, é recomendado que D esteja na faixa de 10–25%. O grau de precisão desejado é importante para estimar o tamanho da amostra necessária quando um investigador deseja testar se a lei de Taylor se aplica aos dados. O tamanho da amostra necessário foi estimado para uma série de distribuições simples, mas onde a distribuição da população não é conhecida ou não pode ser assumida, podem ser necessárias fórmulas mais complexas para determinar o tamanho da amostra necessário.

Onde a população é Poisson distribuída, o tamanho da amostra ( n ) necessário é

onde t é o nível crítico da distribuição t para o erro tipo 1 com os graus de liberdade com os quais a média ( m ) foi calculada.

Se a população for distribuída como uma distribuição binomial negativa , o tamanho da amostra necessário é

onde k é o parâmetro da distribuição binomial negativa.

Um estimador de tamanho de amostra mais geral também foi proposto

onde aeb são derivados da lei de Taylor.

Uma alternativa foi proposta por Southwood

onde n é o tamanho de amostra necessário, de um e b são os coeficientes da lei de Taylor e D é o desejado grau de precisão.

Karandinos propôs dois estimadores semelhantes para n . O primeiro foi modificado por Ruesink para incorporar a lei de Taylor.

onde d é a razão da metade do intervalo de confiança ( IC ) desejado para a média. Em símbolos

O segundo estimador é usado na amostragem binomial (presença-ausência). O tamanho de amostra desejado ( n ) é

onde o d p é a relação de metade do intervalo de confiança desejado para a proporção de unidades de amostra com os indivíduos, p é proporção de amostras contendo os indivíduos e q  = 1 -  p . Em símbolos

Para amostragem binária (presença / ausência), Schulthess et al modificaram a equação de Karandinos

onde N é o tamanho da amostra necessário, p é a proporção de unidades contendo os organismos de interesse, t é o nível de significância escolhido e D ip é um parâmetro derivado da lei de Taylor.

Amostragem sequencial

A análise sequencial é um método de análise estatística em que o tamanho da amostra não é fixado de antemão. Em vez disso, as amostras são coletadas de acordo com uma regra de parada predefinida . A lei de Taylor foi usada para derivar uma série de regras de interrupção.

Uma fórmula para precisão fixa em amostragem serial para testar a lei de Taylor foi derivada por Green em 1970.

onde T é o total de amostra cumulativos, D é o nível de precisão, n é o tamanho da amostra e um e b são obtidos a partir da lei de Taylor.

Como uma ajuda para o controle de pragas, Wilson et al desenvolveram um teste que incorporou um nível de limite onde uma ação deve ser tomada. O tamanho da amostra necessário é

onde um e b são os coeficientes de Taylor, || é o valor absoluto , m é a média da amostra, T é o nível limite e t é o nível crítico da distribuição t. Os autores também forneceram um teste semelhante para amostragem binomial (presença-ausência)

onde p é a probabilidade de encontrar uma amostra com pragas presentes eq  = 1 -  p .

Green derivou outra fórmula de amostragem para amostragem sequencial baseada na lei de Taylor

onde D é o grau de precisão, uma e b são os coeficientes da lei de Taylor, n é o tamanho da amostra e t é o número total de indivíduos na amostra.

Serra et al propuseram uma regra de parada baseada na lei de Taylor.

onde um e b são os parâmetros da lei de Taylor, D é o nível desejado de precisão e T n é o tamanho total da amostra.

Serra et al também propuseram uma segunda regra de parada baseada na regressão de Iwoa

onde α e β são os parâmetros da linha de regressão, D é o nível de precisão desejado e T n é o tamanho total da amostra.

Os autores recomendaram que D seja fixado em 0,1 para estudos de dinâmica populacional e D  = 0,25 para controle de pragas.

Análises relacionadas

É considerado uma boa prática estimar pelo menos uma análise adicional de agregação (diferente da lei de Taylor) porque o uso de apenas um único índice pode ser enganoso. Embora vários outros métodos para detectar relações entre a variância e a média em amostras biológicas tenham sido propostos, até o momento nenhum alcançou a popularidade da lei de Taylor. A análise mais popular usada em conjunto com a lei de Taylor é provavelmente o teste de regressão Patchiness de Iowa, mas todos os métodos listados aqui foram usados ​​na literatura.

Modelo Barlett-Iawo

Barlett em 1936 e mais tarde Iawo independentemente em 1968 propuseram uma relação alternativa entre a variância e a média. Em símbolos

onde s é a variância na i ésima amostra e m i é a média da i ésima amostra

Quando a população segue uma distribuição binomial negativa , a  = 1 eb  =  k (o expoente da distribuição binomial negativa).

Esta formulação alternativa não foi considerada um ajuste tão bom quanto a lei de Taylor na maioria dos estudos.

Modelo de Nachman

Nachman propôs uma relação entre a densidade média e a proporção de amostras com contagens zero:

onde p 0 é a proporção da amostra com contagens zero, m é a densidade média, a é um parâmetro de escala eb é um parâmetro de dispersão. Se a = b = 0, a distribuição é aleatória. Esta relação é geralmente testada em sua forma logarítmica

Allsop usou essa relação junto com a lei de Taylor para derivar uma expressão para a proporção de unidades infestadas em uma amostra

Onde

onde D 2 é o grau de precisão desejado, z α / 2 é o α / 2 superior da distribuição normal, a e b são os coeficientes da lei de Taylor, c e d são os coeficientes de Nachman, n é o tamanho da amostra e N é o número de unidades infestadas.

Equação Kono-Sugino

A amostragem binária não é raramente usada na ecologia. Em 1958, Kono e Sugino derivaram uma equação que relaciona a proporção de amostras sem indivíduos com a densidade média das amostras.

em que p 0 é a proporção da amostra com há indivíduos, m representa a densidade da amostra média, um e b são constantes. Como a lei de Taylor, descobriu-se que essa equação se ajusta a uma variedade de populações, incluindo aquelas que obedecem à lei de Taylor. Ao contrário da distribuição binomial negativa, este modelo é independente da densidade média.

A derivação desta equação é direta. Seja a proporção de unidades vazias p 0 e assuma que elas são distribuídas exponencialmente. Então

Pegando os logs duas vezes e reorganizando, obtemos a equação acima. Este modelo é o mesmo proposto por Nachman.

A vantagem deste modelo é que não requer a contagem dos indivíduos, mas sim a sua presença ou ausência. A contagem de indivíduos pode não ser possível em muitos casos, especialmente quando os insetos são objeto de estudo.

Observação

A equação foi derivada ao examinar a relação entre a proporção P de uma série de colinas de arroz infestadas e a severidade média da infestação  m . O modelo estudado foi

onde um e b são constantes empíricas. Com base neste modelo as constantes de um e b foram derivados e uma tabela preparada relacionando os valores de Pm

Usos

As estimativas previstas de m a partir desta equação estão sujeitas a viés e é recomendado que a média ajustada ( m a ) seja usada em seu lugar

onde var é a variância das médias da unidade de amostra m i e m é a média geral.

Um ajuste alternativo para as estimativas médias é

onde MSE é o erro quadrático médio da regressão.

Este modelo também pode ser usado para estimar linhas de parada para amostragem enumerativa (sequencial). A variação das médias estimadas é

Onde

onde MSE é o erro quadrático médio da regressão, α e β são a constante e a inclinação da regressão respectivamente, s β 2 é a variância da inclinação da regressão, N é o número de pontos na regressão, n é o número de unidades de amostra e p é o valor médio de p 0 na regressão. Os parâmetros a e b são estimados a partir da lei de Taylor:

Equação de Hughes-Madden

Hughes e Madden propuseram testar uma relação semelhante aplicável a observações binárias em cluster, onde cada cluster contém de 0 a n indivíduos.

onde um , b e c são constantes, var obs é o desvio observado, e p é a percentagem de indivíduos com um traço (tais como a doença), uma estimativa da probabilidade de um indivíduo com um traço. Na forma logarítmica, esta relação é

Na maioria dos casos, assume-se que b = c , levando a um modelo simples

Essa relação foi submetida a testes menos extensos do que a lei de Taylor. No entanto, ele descreveu com precisão mais de 100 conjuntos de dados e não há exemplos publicados relatando que ele não funciona.

Uma variante dessa equação foi proposta por Shiyomi et al. () que sugeriu testar a regressão

onde var obs é o desvio, um e b são as constantes de regressão, n aqui é o tamanho da amostra (não amostra por grupo) e P é a probabilidade de uma amostra que cont pelo menos um indivíduo.

Modelo de distribuição binomial negativa

Um modelo binomial negativo também foi proposto. O parâmetro de dispersão ( k ) usando o método dos momentos é m 2 / ( s 2 - m ) e p i é a proporção de amostras com contagens> 0. Os s 2 usados ​​no cálculo de k são os valores previstos pela lei de Taylor . p i é representada graficamente contra 1 - ( k ( k  +  m ) -1 ) k e o ajuste dos dados é visualmente inspeccionado.

Perry e Taylor propuseram um estimador alternativo de k baseado na lei de Taylor.

Uma melhor estimativa do parâmetro de dispersão pode ser feita com o método da máxima verossimilhança . Para o binômio negativo pode ser estimado a partir da equação

onde A x é o número total de amostras com mais de x indivíduos, N é o número total de indivíduos, x é o número de indivíduos em uma amostra, m é o número médio de indivíduos por amostra ek é o expoente. O valor de k deve ser estimado numericamente.

A qualidade do ajuste desse modelo pode ser testada de várias maneiras, incluindo o teste do qui-quadrado. Como eles podem ser influenciados por pequenas amostras, uma alternativa é a estatística U - a diferença entre a variância esperada sob a distribuição binomial negativa e a da amostra. A variação esperada desta distribuição é m + m 2 / k e

onde s 2 é a variância da amostra, m é a média da amostra ek é o parâmetro binomial negativo.

A variância de U é

onde p = m / k , q = 1 + p , R = p / q e N é o número total de indivíduos da amostra. O valor esperado de U é 0. Para tamanhos de amostra grandes, U é distribuído normalmente.

Nota: O binômio negativo é na verdade uma família de distribuições definidas pela relação da média com a variância

onde a e p são constantes. Quando a = 0, isso define a distribuição de Poisson. Com p = 1 ep = 2, a distribuição é conhecida como distribuição NB1 e NB2, respectivamente.

Este modelo é uma versão do proposto anteriormente por Barlett.

Testa um parâmetro de dispersão comum

O parâmetro de dispersão ( k ) é

onde m é a média da amostra e s 2 é a variância. Se k −1 for> 0, a população é considerada agregada; k −1 = 0 a população é considerada aleatória; e se k −1 for <0, a população é considerada uniformemente distribuída.

Southwood recomendou regressar k contra a média e uma constante

onde k i e m i são o parâmetro de dispersão e a média da i-ésima amostra, respectivamente, para testar a existência de um parâmetro de dispersão comum ( k c ). Um valor de inclinação ( b ) significativamente> 0 indica a dependência de k na densidade média.

Um método alternativo foi proposto por Elliot que sugeriu plotagem ( s 2 - m ) contra ( m 2 - s 2 / n ). k c é igual a 1 / inclinação desta regressão.

Coeficiente de Charlier

Este coeficiente ( C ) é definido como

Se a população pode ser considerada distribuída de forma binomial negativa, então C = 100 (1 / k ) 0,5 onde k é o parâmetro de dispersão da distribuição.

Índice de dispersão de Cole

Este índice ( I c ) é definido como

A interpretação usual deste índice é a seguinte: valores de I c <1, = 1,> 1 significam uma distribuição uniforme, uma distribuição aleatória ou uma distribuição agregada.

Como s 2 = Σ x 2 - (Σx) 2 , o índice também pode ser escrito

Se a lei de Taylor pode ser considerada válida, então

Índices Lloyd's

O índice de aglomeração média de Lloyd ( IMC ) é o número médio de outros pontos contidos na unidade de amostra que contém um ponto escolhido aleatoriamente.

onde m é a média da amostra e s 2 é a variância.

O índice de distribuição ( IP ) de Lloyd's é

É uma medida de intensidade de padrão que não é afetada pelo afinamento (remoção aleatória de pontos). Esse índice também foi proposto por Pielou em 1988 e às vezes também é conhecido por esse nome.

Como uma estimativa da variância do IP é extremamente difícil de estimar a partir da própria fórmula, LLyod sugeriu ajustar uma distribuição binomial negativa aos dados. Este método fornece um parâmetro k

Então

onde é o erro padrão do índice de retalhamento, é a variação do parâmetro k e q é o número de parcelas amostrados ..

Se a população obedecer à lei de Taylor, então

Teste de regressão de patchiness

Iwao propôs uma regressão irregular para testar a aglutinação

Deixar

y i aqui está o índice de aglomeração média de Lloyd. Execute uma regressão de mínimos quadrados ordinários de m i contra  y .

Nesta regressão, o valor da inclinação ( b ) é um indicador de aglutinação: a inclinação = 1 se os dados forem distribuídos por Poisson. A constante ( a ) é o número de indivíduos que compartilham uma unidade de habitat em densidade infinitesimal e pode ser <0, 0 ou> 0. Esses valores representam regularidade, aleatoriedade e agregação de populações em padrões espaciais, respectivamente. Um valor de a <1 significa que a unidade básica da distribuição é um único indivíduo.

Onde a estatística s 2 / m não é constante, foi recomendado usar em vez disso para fazer a regressão do índice de Lloyd contra am + bm 2, onde a e b são constantes.

O tamanho da amostra ( n ) para um determinado grau de precisão ( D ) para esta regressão é dado por

onde a é a constante nesta regressão, b é a inclinação, m é a média e t é o valor crítico da distribuição t.

Iawo propôs um teste de amostragem sequencial com base nessa regressão. Os limites superior e inferior deste teste são baseados em densidades críticas m c onde o controle de uma praga requer ação a ser tomada.

onde N u e N l são os limites superior e inferior respectivamente, a é a constante da regressão, b é a inclinação ei é o número de amostras.

Kuno propôs um teste de parada sequencial alternativo também baseado nesta regressão.

onde T n é o tamanho total da amostra, D é o grau de precisão, n é o número de unidades de amostra, a é a constante eb é a inclinação da regressão, respectivamente.

O teste de Kuno está sujeito à condição de que n ≥ ( b - 1) / D 2

Parrella e Jones propuseram uma linha de parada alternativa, mas relacionada

onde um e b são os parâmetros da regressão, N é o número máximo de blocos amostrados e n é o tamanho do indivíduo amostra.

Índice de dispersão de Morisita

O índice de dispersão de Morisita ( I m ) é a probabilidade em escala de que dois pontos escolhidos ao acaso de toda a população estejam na mesma amostra. Valores mais altos indicam uma distribuição mais agregada.

Uma formulação alternativa é

onde n é o tamanho total da amostra, m é a média da amostra e x são os valores individuais com a soma de toda a amostra. Também é igual a

onde IMC é o índice de aglomeração de Lloyd.

Este índice é relativamente independente da densidade populacional, mas é afetado pelo tamanho da amostra. Valores> 1 indicam aglomeração; valores <1 indicam uma uniformidade de distribuição e um valor 1 indica uma amostra aleatória.

Morisita mostrou que a estatística

é distribuído como uma variável qui-quadrada com n  - 1 graus de liberdade.

Um teste de significância alternativo para este índice foi desenvolvido para grandes amostras.

onde m é a média geral da amostra, n é o número de unidades da amostra ez é a abscissa da distribuição normal . A significância é testada comparando o valor de z com os valores da distribuição normal .

Uma função para o seu cálculo está disponível na linguagem R estatística . Função R

Observe que não deve ser confundido com o índice de sobreposição de Morisita .

Índice de Morisita padronizado

Smith-Gill desenvolveu uma estatística baseada no índice de Morisita que é independente do tamanho da amostra e da densidade populacional e limitada por -1 e +1. Esta estatística é calculada da seguinte maneira

Primeiro determine o índice de Morisita ( I d ) da maneira usual. Então, seja k o número de unidades das quais a população foi amostrada. Calcule os dois valores críticos

onde χ 2 é o valor do qui quadrado para n - 1 graus de liberdade nos níveis de confiança de 97,5% e 2,5%.

O índice padronizado ( I p ) é então calculado a partir de uma das fórmulas abaixo.

Quando I dM c > 1

Quando M c > I d ≥ 1

Quando 1> I dM u

Quando 1> M u > I d

I p varia entre +1 e −1 com intervalos de confiança de 95% de ± 0,5. I p tem o valor 0 se o padrão for aleatório; se o padrão é uniforme, I p <0 e se o padrão mostra agregação, I p > 0.

Índice de agregação espacial de Southwood

O índice de agregação espacial de Southwood ( k ) é definido como

onde m é a média da amostra e m * é o índice de aglomeração de Lloyd.

Índice de dispersão de Fisher

O índice de dispersão de Fisher é

Este índice pode ser usado para testar a superdispersão da população. Recomenda-se que em aplicações n> 5 e que o total da amostra dividido pelo número de amostras seja> 3. Em símbolos

onde x é um valor de amostra individual. A expectativa do índice é igual an e é distribuído como a distribuição qui-quadrado com n  - 1 graus de liberdade quando a população está distribuída por Poisson. É igual ao parâmetro de escala quando a população obedece à distribuição gama .

Pode ser aplicado à população geral e às áreas individuais amostradas individualmente. O uso desse teste nas áreas individuais da amostra também deve incluir o uso de um fator de correção de Bonferroni.

Se a população obedecer à lei de Taylor, então

Índice de tamanho do cluster

O índice de tamanho do cluster ( ICS ) foi criado por David e Moore. Sob uma distribuição aleatória (Poisson), espera-se que o ICS seja igual a 0. Valores positivos indicam uma distribuição agregada; valores negativos indicam uma distribuição uniforme.

onde s 2 é a variância e m é a média.

Se a população obedecer à lei de Taylor

O ICS também é igual à estatística de teste de Katz dividida por ( n / 2) 1/2, onde n é o tamanho da amostra. Também está relacionado à estatística de teste de Clapham. Às vezes, também é chamado de índice de aglutinação.

Índice de Green

O índice de Green ( GI ) é uma modificação do índice de tamanho do cluster que é independente do n número de unidades de amostra.

Este índice é igual a 0 se a distribuição for aleatória, 1 se for agregada ao máximo e −1 / ( nm - 1) se for uniforme.

A distribuição do índice de Green não é conhecida atualmente, portanto testes estatísticos têm sido difíceis de desenvolver para ele.

Se a população obedecer à lei de Taylor

Índice de dispersão binária

A amostragem binária (presença / ausência) é freqüentemente usada onde é difícil obter contagens precisas. O índice de dispersão ( D ) é usado quando a população do estudo é dividida em uma série de amostras iguais (número de unidades = N : número de unidades por amostra = n : tamanho total da população = n x N ). A variância teórica de uma amostra de uma população com uma distribuição binomial é

onde s 2 é a variância, n é o número de unidades amostradas e p é a proporção média de unidades amostrais com pelo menos um indivíduo presente. O índice de dispersão ( D ) é definido como a razão entre a variância observada e a variância esperada. Em símbolos

onde var obs é a variância observada e var bin é a variância esperada. A variação esperada é calculada com a média geral da população. Valores de D > 1 são considerados como sugerindo agregação. D ( n - 1) é distribuído como a variável qui-quadrada com n - 1 graus de liberdade, onde n é o número de unidades amostradas.

Um teste alternativo é o teste C.

onde D é o índice de dispersão, n é o número de unidades por amostra e N é o número de amostras. C é distribuído normalmente. Um valor estatisticamente significativo de C indica sobredispersão da população.

D também está relacionado à correlação intraclasse ( ρ ), que é definida como

onde T é o número de organismos por amostra, p é a probabilidade de o organismo ter a propriedade desejada (doente, livre de pragas, etc. ) e x i é o número de organismos na i- ésima unidade com essa propriedade. T deve ser o mesmo para todas as unidades amostradas. Neste caso com constante n

Se os dados podem ser ajustados com uma distribuição beta-binomial, então

onde θ é o parâmetro da distribuição.

Densidade crítica de agregação populacional de Ma

Ma propôs um parâmetro ( m 0 ) - a densidade crítica de agregação populacional - para relacionar a densidade populacional à lei de Taylor.

Estatísticas relacionadas

Vários testes estatísticos são conhecidos e podem ser úteis em aplicativos.

estatística de Oliveria

Uma estatística relacionada sugerida por de Oliveria é a diferença da variância e a média. Se a população é distribuída por Poisson, então

onde t é o parâmetro de Poisson, s 2 é a variância, m é a média en é o tamanho da amostra. O valor esperado de s 2 - m é zero. Essa estatística é distribuída normalmente.

Se o parâmetro de Poisson nesta equação for estimado colocando t = m , após uma pequena manipulação esta estatística pode ser escrita

Isso é quase idêntico à estatística de Katz com ( n - 1) substituindo n . Novamente, O T é normalmente distribuído com média 0 e variância unitária para n grande . Essa estatística é igual à estatística de Neyman-Scott.

Observação

de Oliveria na verdade sugeriu que a variância de s 2 - m era (1 - 2 t 1/2 + 3 t ) / n onde t é o parâmetro de Poisson. Ele sugeriu que t poderia ser estimado colocando-o igual à média ( m ) da amostra. Uma investigação mais aprofundada por Bohning mostrou que esta estimativa da variação estava incorreta. A correção de Bohning é dada nas equações acima.

Teste de clapham

Em 1936, Clapham propôs usar a razão entre a variância e a média como uma estatística de teste (a variância relativa). Em símbolos

Para uma distribuição de Possion, essa razão é igual a 1. Para testar os desvios desse valor, ele propôs testar seu valor em comparação com a distribuição do qui-quadrado com n graus de liberdade, onde n é o número de unidades da amostra. A distribuição desta estatística foi estudada posteriormente por Blackman, que notou que era aproximadamente normalmente distribuída com uma média de 1 e uma variância ( V θ ) de

A derivação da variância foi novamente analisada por Bartlett que a considerou

Para grandes amostras, essas duas fórmulas estão em concordância aproximada. Este teste está relacionado à estatística J n de Katz posterior .

Se a população obedecer à lei de Taylor, então

Observação

Um refinamento desse teste também foi publicado. Esses autores observaram que o teste original tende a detectar a superdispersão em escalas mais altas, mesmo quando isso não estava presente nos dados. Eles observaram que o uso da distribuição multinomial pode ser mais apropriado do que o uso de uma distribuição de Poisson para tais dados. A estatística θ é distribuída

onde N é o número de unidades de amostra, n é o número total de amostras examinadas e x i são os valores de dados individuais.

A expectativa e a variação de θ são

Para N grande , E ( θ ) é aproximadamente 1 e

Se o número de indivíduos amostrados ( n ) for grande, essa estimativa da variância está de acordo com as derivadas anteriormente. No entanto, para amostras menores, essas últimas estimativas são mais precisas e devem ser usadas.

Veja também

Referências